GOOGLE: las matemáticas dan otro golpe sobre la mesa.

Fotograma de la serie Cosmos, donde Carl Sagan hablaba de "googol" más de 20 años antes de que existiera Google.

      La historia de Google comienza en las postrimerías del año 2000 cuando muchas empresas informáticas se habían puesto en marcha para evitar el “efecto 2000”*1 que al final no tuvo las apocalípticas consecuencias que se vaticinaron y como consecuencia muchas empresas informáticas que se habían centrado en ofrecer soporte a las compañías que pudieran verse afectadas se fueron a pique.  
Los creadores de Google*2 Larry Page y Sergey Brin, eran dos jóvenes licenciados en matemáticas e informática que cruzaron sus caminos en la universidad californiana de Stanford mientras realizaban el doctorado. Larry Page  se entretenía en sus ratos libres elaborando  un motor de clasificación de páginas web capaz de analizar los enlaces existentes en las páginas y su relación con unas determinadas palabras clave. Esta idea permitió a Page programar un algoritmo diseñado para relacionar páginas web y clasificarlas de una manera más coherente y eficaz que la ofrecida por los motores de búsqueda en Internet con más éxito a finales de los 90: AltaVista y Yahoo!…(si, Altavista era un buscador…)
El resultado de trabajo fue  crear PageRank System, una tecnología muy sofisticada que poco después constituyó el corazón de Google. Por otro lado Sergey Brin desarrolló un rastreador capaz de analizar el contenido de una página web para crear un esbozo de los datos que contiene y almacenarlo de forma automática en un repositorio central que podría ser utilizado por un motor de búsqueda. En esta época se conocieron y se dieron cuenta de que sus proyectos se complementaban maravillosamente. Es en este momento en el que Google ve la luz. Acababa de nacer un gigante.
La magia de su algoritmo.
El algoritmo de Google está basado en un conjunto de fórmulas matemáticas que se encargan de rastrear, indexar y clasificar las informaciones existentes en la web. Esta clasificación emplea toda una serie de algoritmos para proporcionar  la información más útil en la búsqueda, teniendo en cuenta factores como las palabras de la consulta, la relevancia, el uso de las páginas, su grado de especialización en función de sus fuentes, la ubicación de la búsqueda y su configuración. El peso que se da a cada factor cambia dependiendo de la naturaleza de la consulta: por poner un ejemplo, el nivel de actualidad del contenido tiene una mayor relevancia al responder a consultas sobre noticias de actualidad que en consultas acerca de definiciones que pueden aparecer en un diccionario. Un símil para entender cómo funciona lo podemos encontrar con el ejemplo de una biblioteca: cada sitio web podría equivaler a un libro y cada página de esa web correspondería a un capítulo. Toda esta información ha de ser clasificada y organizada para que cuando alguien realice una búsqueda pueda encontrar con facilidad el contenido que desea. ¿Quién se encarga de esta ardua tarea? Los encargados de esta tarea son son programas de ordenador que rastrean la red, a los que se conocen como “arañas”. Éstas analizan y clasifican todo el contenido de la web definiendo su calidad e importancia, lo cual  determinará la posición en la que los contenidos aparecerán en los resultados de una búsqueda. Veamos en profundidad cómo funciona:
Rastreo
La primera etapa es el rastreo del contenido. Es el proceso por el cual los robots identifican las páginas web para posteriormente organizarlas.
Indexación
La segunda etapa es la de la indexación. Aquí las "arañas" incluyen las páginas web en el índice del motor de búsqueda. Aplicándolo al ejemplo propuesto de la biblioteca, esto sería el equivalente a cuando el contenido ya forma parte del fondo bibliográfico del motor de búsqueda.
Clasificación
En esta última etapa, el algoritmo decide la importancia de un contenido dentro del contexto de búsqueda. De acuerdo con la clasificación de la página web será escogida la posición donde aparecerá el resultado. Es en este momento en el que  esta el buscador determina el orden en el que serán mostrados los resultados. Es necesario poner énfasis en el hecho de que el contenido en Internet es bastante dinámico y por tanto el trabajo de clasificación es actualizado constantemente. Por esta razón es necesario tener continuamente actualizado su contenido y dotarlo de calidad para que su posicionamiento sea el óptimo para recibir las deseadas visitas.
En cuanto a este tema de la clasificación y orden me gustaría acabar recordando un chiste que he oido en alguna ocasión sobre el orden de los resultados en las búsquedas de google: 
.-¿dónde esconderías el cadáver en caso de cometer un asesinato? 
.-Pues el lugar más seguro donde esconderlo sería la segunda página de la búsqueda de google.
¿Hace mucho que no pasas de la primera página de los resultados de una búsqueda de Google?.

*1Efecto 2000 era un error de software causado por la costumbre que habían adoptado los programadores de omitir la centuria en el año para el almacenamiento de fechas (generalmente para economizar memoria), asumiendo que el software solo funcionaría durante los años cuyos números comenzaran con 19XX. 
*2Google El término Gúgol fue inventado por el sobrino de nueve años del matemático estadounidense Edward Kasner, que decidió emplearlo para identificar al número 10 elevado a 100, un número tremendamente grande. A Larry Page se le ocurrió utilizarlo para bautizar su buscador, pero por error escribió Google en vez del término correcto en inglés, que es googol.



Comentarios

  1. No conocía ese chiste. Lo usaré en mis clases de Álgebra Lineal cuando trate de convencerles de que el cálculo de autovalores te puede convertir en rico y poderoso ;-)

    Muy buen artículo, Manuel.

    ResponderEliminar

Publicar un comentario

Entradas populares de este blog

Nombre y género de los microbios

CÓDIGO ALIMENTARIO ESPAÑOL: Tipos de alimentos.

El Algoritmo A* y sus limitaciones