¿Qué es una araña web? | Cómo funcionan las arañas web

¿Qué es un bot de rastreo web?

Un bot de rastreo web, araña o motor de búsqueda descarga e indexa contenido de todo Internet. El objetivo de un bot de este tipo es aprender de qué tratan (casi) todas las páginas web de la red, para poder recuperar la información cuando se necesite. Se llaman «rastreadores web» porque rastrear es el término técnico para acceder automáticamente a un sitio web y obtener datos a través de un programa de software.

Estos bots son casi siempre operados por motores de búsqueda. Al aplicar un algoritmo de búsqueda a los datos recogidos por los rastreadores web, los motores de búsqueda pueden proporcionar enlaces relevantes en respuesta a las consultas de búsqueda de los usuarios, generando la lista de páginas web que aparecen después de que un usuario escriba una búsqueda en Google o Bing (o en otro motor de búsqueda).

Un bot rastreador web es como alguien que revisa todos los libros de una biblioteca desorganizada y arma un catálogo de tarjetas para que cualquier persona que visite la biblioteca pueda encontrar rápida y fácilmente la información que necesita. Para ayudar a categorizar y ordenar los libros de la biblioteca por temas, el organizador leerá el título, el resumen y parte del texto interno de cada libro para averiguar de qué trata.

Bot rastreador de la web que organiza la información

Sin embargo, a diferencia de una biblioteca, Internet no se compone de pilas físicas de libros, y eso hace que sea difícil saber si toda la información necesaria se ha indexado correctamente, o si se están pasando por alto grandes cantidades de ella. Para tratar de encontrar toda la información relevante que ofrece Internet, un bot rastreador de la web comenzará con un determinado conjunto de páginas web conocidas y luego seguirá los hipervínculos de esas páginas a otras páginas, seguirá los hipervínculos de esas otras páginas a otras páginas adicionales, y así sucesivamente.

No se sabe qué parte de la Internet disponible al público es realmente rastreada por los bots de los motores de búsqueda. Algunas fuentes estiman que sólo el 40-70% de Internet está indexado para la búsqueda – y eso es miles de millones de páginas web.

¿Qué es la indexación de búsqueda?

La indexación de búsqueda es como la creación de un catálogo de tarjetas de biblioteca para Internet para que un motor de búsqueda sepa en qué parte de Internet recuperar la información cuando una persona la busca. También puede compararse con el índice de la contraportada de un libro, que enumera todos los lugares del libro en los que se menciona un determinado tema o frase.

La indexación se centra sobre todo en el texto que aparece en la página, y en los metadatos* sobre la página que los usuarios no ven. Cuando la mayoría de los motores de búsqueda indexan una página, añaden todas las palabras de la página al índice, excepto palabras como «a», «an» y «the» en el caso de Google. Cuando los usuarios buscan esas palabras, el motor de búsqueda recorre su índice de todas las páginas en las que aparecen esas palabras y selecciona las más relevantes.

*En el contexto de la indexación de búsquedas, los metadatos son datos que indican a los motores de búsqueda de qué trata una página web. A menudo, el meta título y la meta descripción son lo que aparecerá en las páginas de resultados de los motores de búsqueda, a diferencia del contenido de la página web que es visible para los usuarios.

¿Cómo funcionan los rastreadores web?

Internet está en constante cambio y expansión. Como no es posible saber cuántas páginas web hay en total en Internet, los robots de rastreo web parten de una semilla, o de una lista de URLs conocidas. Primero rastrean las páginas web de esas URL. A medida que rastrean esas páginas web, encontrarán hipervínculos a otras URL y las añadirán a la lista de páginas que rastrearán a continuación.

Dado el enorme número de páginas web de Internet que podrían indexarse para la búsqueda, este proceso podría continuar casi indefinidamente. Sin embargo, un rastreador web seguirá ciertas políticas que lo hacen más selectivo sobre qué páginas rastrear, en qué orden hacerlo y con qué frecuencia debe rastrearlas de nuevo para comprobar si hay actualizaciones de contenido.

La importancia relativa de cada página web: La mayoría de los rastreadores web no rastrean toda la Internet disponible al público ni tienen la intención de hacerlo; en su lugar, deciden qué páginas rastrear primero basándose en el número de otras páginas que enlazan con esa página, la cantidad de visitantes que recibe esa página y otros factores que significan la probabilidad de que la página contenga información importante.

La idea es que una página web que es citada por muchas otras páginas web y recibe muchas visitas es probable que contenga información de alta calidad y con autoridad, por lo que es especialmente importante que un motor de búsqueda la tenga indexada – al igual que una biblioteca podría asegurarse de mantener un montón de copias de un libro que es consultado por mucha gente.

Revisando páginas web: El contenido de la web se actualiza continuamente, se elimina o se traslada a nuevas ubicaciones. Los rastreadores web tendrán que volver a visitar periódicamente las páginas para asegurarse de que se indexa la última versión del contenido.

Requisitos de Robots.txt: Los rastreadores web también deciden qué páginas rastrear basándose en el protocolo robots.txt (también conocido como protocolo de exclusión de robots). Antes de rastrear una página web, comprobarán el archivo robots.txt alojado en el servidor web de esa página. Un archivo robots.txt es un archivo de texto que especifica las reglas para los bots que acceden al sitio web o aplicación alojados. Estas reglas definen qué páginas pueden rastrear los robots y qué enlaces pueden seguir. Como ejemplo, eche un vistazo al archivo robots.txt de Cloudflare.com.

Todos estos factores se ponderan de manera diferente dentro de los algoritmos propietarios que cada motor de búsqueda construye en sus robots araña. Los rastreadores web de los distintos motores de búsqueda se comportan de forma ligeramente diferente, aunque el objetivo final es el mismo: descargar e indexar el contenido de las páginas web.

¿Por qué los rastreadores web se llaman «arañas»?

Internet, o al menos la parte a la que acceden la mayoría de los usuarios, también se conoce como World Wide Web; de hecho, de ahí proviene la parte «www» de la mayoría de las URL de los sitios web. Era natural llamar a los bots de los motores de búsqueda «arañas», porque se arrastran por toda la Web, al igual que las arañas reales se arrastran por las telas de araña.

¿Siempre se debe permitir a los bots de rastreo web acceder a las propiedades web?

Eso depende de la propiedad web, y de una serie de factores. Los rastreadores web necesitan recursos del servidor para indexar el contenido: hacen peticiones a las que el servidor debe responder, al igual que un usuario que visita un sitio web u otros bots que acceden a un sitio web. Dependiendo de la cantidad de contenido de cada página o del número de páginas del sitio, al operador del sitio web podría interesarle no permitir la indexación de las búsquedas con demasiada frecuencia, ya que un exceso de indexación podría sobrecargar el servidor, aumentar los costes de ancho de banda, o ambas cosas.

Además, los desarrolladores o las empresas pueden no querer que algunas páginas web sean descubribles a menos que un usuario ya haya recibido un enlace a la página (sin poner la página detrás de un muro de pago o un inicio de sesión). Un ejemplo de este caso para las empresas es cuando crean una página de aterrizaje dedicada a una campaña de marketing, pero no quieren que nadie que no sea el objetivo de la campaña acceda a la página. De este modo, pueden adaptar el mensaje o medir con precisión el rendimiento de la página. En estos casos, la empresa puede añadir una etiqueta «no indexada» a la página de destino, y no aparecerá en los resultados de los motores de búsqueda. También puede añadir una etiqueta «disallow» en la página o en el archivo robots.txt, y las arañas de los motores de búsqueda no la rastrearán en absoluto.

Los propietarios de sitios web pueden no querer que los robots rastreadores rastreen parte o la totalidad de sus sitios por una variedad de otras razones también. Por ejemplo, un sitio web que ofrece a los usuarios la posibilidad de realizar búsquedas dentro del sitio puede querer bloquear las páginas de resultados de búsqueda, ya que no son útiles para la mayoría de los usuarios. Otras páginas autogeneradas que sólo son útiles para un usuario o unos pocos usuarios específicos también deben ser bloqueadas.

¿Cuál es la diferencia entre el rastreo web y el scraping web?

El scraping web, el scraping de datos o el scraping de contenido es cuando un bot descarga el contenido de un sitio web sin permiso, a menudo con la intención de utilizar ese contenido para un propósito malicioso.

El scraping web suele ser mucho más específico que el rastreo web. Los raspadores web pueden estar detrás de páginas específicas o sitios web específicos solamente, mientras que los rastreadores web seguirán los enlaces y rastrearán las páginas continuamente.

Además, los bots de raspado web pueden ignorar la tensión que ponen en los servidores web, mientras que los rastreadores web, especialmente los de los principales motores de búsqueda, obedecerán el archivo robots.txt y limitarán sus solicitudes para no sobrecargar el servidor web.

¿Cómo afectan los rastreadores web al SEO?

SEO son las siglas en inglés de Search Engine Optimization (optimización para motores de búsqueda), y es la disciplina que consiste en preparar el contenido para la indexación de las búsquedas, de modo que un sitio web aparezca más alto en los resultados de los motores de búsqueda.

Si los robots araña no rastrean un sitio web, éste no podrá ser indexado y no aparecerá en los resultados de búsqueda. Por esta razón, si el propietario de un sitio web quiere obtener tráfico orgánico de los resultados de búsqueda, es muy importante que no bloquee los robots rastreadores de la web.

¿Qué robots rastreadores de la web están activos en Internet?

Los robots de los principales motores de búsqueda se llaman:

Google: Googlebot (en realidad dos rastreadores, Googlebot Desktop y Googlebot Mobile, para las búsquedas en escritorio y en móvil)
Bing: Bingbot
Yandex (motor de búsqueda ruso): Yandex Bot
Baidu (buscador chino): Baidu Spider

También hay muchos bots rastreadores de la web menos comunes, algunos de los cuales no están asociados a ningún motor de búsqueda.

¿Por qué es importante para la gestión de bots tener en cuenta el rastreo de la web?

Los bots malos pueden causar mucho daño, desde malas experiencias de usuario hasta caídas del servidor o robo de datos. Sin embargo, al bloquear los bots malos, es importante seguir permitiendo que los bots buenos, como los rastreadores web, accedan a las propiedades web. Cloudflare Bot Management permite que los bots buenos sigan accediendo a los sitios web al tiempo que mitiga el tráfico de bots maliciosos. El producto mantiene una lista actualizada automáticamente de bots buenos, como los rastreadores web, para garantizar que no sean bloqueados.