¿Cómo funcionan los rastreadores web?

Internet está siempre cambiando y expandiéndose. Ya que no es posible saber el número total de páginas web que hay en Internet, los bots rastreadores web comienzan desde una seed o una lista de URL conocidas. En primer lugar, rastrean las páginas web en esos URL. Según vayan rastreando esas páginas web, encontrarán hipervínculos a otros URL y los añadirán a la lista de páginas que rastrearán después.

Debido a la enorme cantidad de páginas web en Internet que podrían indexarse para su búsqueda, este proceso podría estar ejecutándose de forma casi indefinida. Sin embargo, un rastreador web seguirá ciertas políticas que lo hagan más selectivo acerca de qué páginas rastrear, en qué orden hacerlo y con qué frecuencia se tienen que volver a rastrear para buscar actualizaciones de contenido.

La importancia relativa de cada página web: la mayoría de rastreadores web no rastrean todo el Internet disponible públicamente y no es esa su finalidad; en su lugar, deciden qué páginas rastrear primero dependiendo del número de otras páginas que enlacen con esa página, la cantidad de visitantes que reciban y otros factores que indican las probabilidades de que la página contenga información importante.

La idea es que una página web que sea citada por muchas otras páginas web y reciba muchos visitantes es probable que contenga información autoritativa de buena calidad, así que es especialmente importante que un motor de búsqueda la tenga indexada, igual que una biblioteca se aseguraría de tener muchas copias de un libro muy solicitado por la gente.

Revisitar páginas web: el contenido de la web se actualiza, elimina o se muda a nuevas ubicaciones constantemente. Los rastreadores web deberán volver a visitar las páginas periódicamente para asegurarse de que la última versión del contenido sea la indexada.

Requisitos de Robots.txt: los rastreadores web también deciden qué páginas rastrear según el protocolo robots.txt (también conocido como protocolo de exclusión de robots). Antes de rastrear una página web, comprobarán el archivo robots.txt alojado en el servidor web de esa página. Un archivo robots.txt es un archivo de texto que especifica las reglas para cualquier bot que acceda al sitio web o la aplicación alojados. Estas reglas definen qué páginas pueden rastrear los bots y qué enlaces pueden seguir.

Todos estos factores se ponderan de forma diferente en los algoritmos propietarios que cada motor de búsqueda incorpora en sus bots araña. Los rastreadores web de diferentes motores de búsqueda se comportan de forma ligeramente diferente, aunque el objetivo final es el mismo: descargar e indexar contenido de páginas web.


 

Por David

Deja una respuesta