¿Es cierto que los motores de búsqueda no son solo una enciclopedia para la web, sino que estudian los hábitos y la psicología de millones de personas?

Sí lo es. Kevin Tessier ya habló sobre la recopilación de información con fines de publicidad dirigida. Discutiré el uso de la recopilación de datos con el fin de estimar la relevancia y mejorar el diseño.

Los motores de búsqueda se parecen más a las bibliotecas (con libros que se agregan constantemente a la colección) que a las enciclopedias. Una biblioteca utiliza un sistema que intenta organizar libros para que los libros del mismo tema se coloquen uno al lado del otro (en el mismo estante). Usted “consulta” una biblioteca yendo a la sección que tiene que ver con el tema que le interesa.

Sin embargo, a diferencia de una biblioteca, los motores de búsqueda sí que organizan documentos por tema. En su lugar, utilizan una estructura llamada “índice invertido” que contiene una lista de términos (palabras generalmente). Cada término está asociado con una lista de identificadores que representan todos los documentos que contienen ese término.

Entonces, en el sentido más simple, cuando escribe una consulta en un motor de búsqueda, la divide en términos e identifica todos los documentos que contienen uno o más de los términos en su consulta usando su índice invertido. Luego debe clasificar los documentos que ha identificado y devolverle una lista de documentos ordenados por relevancia.

Así que aquí está la parte difícil: ¿cómo estimas la relevancia de un documento para compararlo con la relevancia de otros documentos para que puedas crear una lista ordenada de ellos? La forma más sencilla es simplemente contar el número de veces que aparecen los términos de consulta en un documento, para que el documento con el número más alto de términos de consulta termine en la parte superior de la lista.

Aquí hay un ejemplo de comparación de un documento con una consulta compuesta por los términos: ‘learning’, ‘journal’, ‘intelligence’, ‘text’, ‘internet’, ‘webwatcher’, ‘perl5’ y ‘volume’ para poder Obtener una puntuación de relevancia.

Entonces, si solo calculamos la relevancia de este documento en función de la frecuencia de los términos de consulta, el puntaje de relevancia sería 3 + 2 + 1 + 1 = 7. Podríamos avanzar más al normalizar este puntaje de alguna manera por la longitud del documento, multiplicando el puntaje parcial que cada término de consulta contribuye al puntaje general por una medida de qué tan poco frecuente es el término en la colección general de documentos (si asumimos que las palabras raras son más útiles que las palabras comunes para determinar la relevancia, que es parcialmente cierto), etc. Pero esto es solo para darle una idea del método básico subyacente de cómo se determina la relevancia.

Entonces, ¿dónde entra la psicología / monitoreo de los hábitos de los usuarios?

Dos lugares (en los que puedo pensar), que se suman a la respuesta de Kevin Tessier.

Primero, piense en una consulta que podría tener: “Cómo cultivar una planta de arveja”. ¿Sería el documento más relevante para usted realmente necesariamente aquel en el que las palabras “cómo”, “a”, “crecer”, “a”, “guisante”, “planta” sean las más frecuentes? Quizás haya varios sitios web sobre este mismo tema, pero la mayoría de ellos fueron escritos por cultivadores novatos de guisantes. Por lo tanto, sería útil si pudiéramos obtener una medida de la autoridad de un documento / página web. Para hacer esto, tal vez podamos ver el número de sitios web de buena reputación que enlazan con cada documento (esto es una simplificación de lo que se llama la puntuación de PageRank). Podríamos representar esto como un número y agregarlo a nuestra representación de cada documento. Los números como este que se agregan a la representación de un documento se denominan “características” del documento.

Del mismo modo, también nos pueden interesar las características que indican cosas como el nivel de lectura, la ubicación, etc. Tendrá muchas características que representan un documento además de solo las palabras / términos de los que está compuesto. No todas estas características se evalúan según las palabras de su consulta. Algunos necesitan ser evaluados contra cosas que el motor de búsqueda conoce sobre usted como usuario. Por lo tanto, el motor de búsqueda puede hacer que usted cree una cuenta (es decir, su cuenta de Google) y puede almacenar información sobre su ubicación, el nivel de lectura de los documentos en los que tiende a pasar más tiempo, etc. Puede argumentar que algunos de ellos estas características son (algo más o menos quizás) de naturaleza psicológica.

La segunda área donde el estudio de la psicología y los hábitos de los usuarios entra en juego es la evaluación de nuevos diseños. Los grandes sitios web como Google, Amazon, Youtube, etc. realizan lo que se denomina prueba A / B. Básicamente, si Google está interesado en posiblemente cambiar el ancho de su barra de búsqueda, dividirá a sus usuarios en dos grupos (A y B). El grupo A verá la página de inicio normal, mientras que el grupo B verá el de la barra de búsqueda más amplia. Luego monitoreará el efecto que esto tiene en los usuarios (si tienden a escribir consultas más largas para una barra de búsqueda más larga, si es más probable que se vayan y vayan a un motor de búsqueda diferente, etc.) Tenga en cuenta que el Grupo B generalmente es una pequeña fracción de la base de usuarios de Google.

El intercalado es otro método de evaluación que emplearán los motores de búsqueda. Esto se hace cuando están probando cambios en su mecanismo de clasificación de relevancia real. Básicamente, algunos de los resultados que se ven son del mecanismo de clasificación normal y algunos son del que se está probando. Luego recopilarán estadísticas sobre si es más probable que los usuarios hagan clic en los enlaces del mecanismo de clasificación normal o en el de prueba. Esto se puede usar, por ejemplo, si agregaron una nueva característica a la representación de documentos (como si no estuvieran usando previamente PageRank como una característica, y de repente comenzamos a hacerlo).

Lo más probable es que haya sido sometido a intercalado y pruebas A / B muchas veces.

Descargo de responsabilidad: pretende dar una impresión general de cómo funcionan los motores de búsqueda en relación con la pregunta, y no una descripción precisa o granular del proceso real empleado por los motores de búsqueda modernos. No soy un experto en recuperación de información, por lo que las correcciones son bienvenidas si observa algún error en mi respuesta.

Bueno, nunca hay una sola respuesta. Obviamente, depende del motor de búsqueda, pero es muy probable que Google recopile información sobre todas las búsquedas que hace la gente, en qué enlaces tienden a hacer clic, los anuncios que seleccionan, etc. Y los anuncios de Google utilizan estos datos para intentar publicar anuncios atractivos y resultados de búsqueda. atendidos al tipo de contenido que usualmente seleccionas.

Sin embargo, eso no significa que el motor de búsqueda de Google “estudie” sus hábitos, simplemente los registra a todos. Las personas que trabajan para Google, por otro lado, pueden tomar estos hábitos y estadísticas, venderlos a otras compañías para que esas empresas sepan quién hace clic en sus anuncios y, básicamente, tener un día de campo con big data.

Incluso permiten que el público en general vea lo que otras personas están buscando en Google: Google Trends

Diviértete explorando el mundo de Google.