O que é um Web Crawler? | Como funcionam as Aranhas da Web

O que é um robot de rastreamento da Web?

Um robot de rastreamento da Web, aranha, ou motor de busca descarrega e indexa o conteúdo de um robot a partir de toda a Internet. O objectivo de um tal bot é aprender sobre o que (quase) todas as páginas da web são, para que a informação possa ser recuperada quando for necessária. São chamados “web crawlers” porque crawling é o termo técnico para aceder automaticamente a um sítio web e obter dados através de um programa de software.

Estes bots são quase sempre operados por motores de busca. Ao aplicar um algoritmo de pesquisa aos dados recolhidos pelos “web crawlers”, os motores de busca podem fornecer ligações relevantes em resposta às consultas de pesquisa dos utilizadores, gerando a lista de páginas web que aparecem depois de um utilizador digitar uma pesquisa no Google ou Bing (ou outro motor de busca).

Um “bot” de “web crawler” é como alguém que percorre todos os livros de uma biblioteca desorganizada e reúne um catálogo de cartões para que qualquer pessoa que visite a biblioteca possa encontrar rápida e facilmente a informação de que necessita. Para ajudar a categorizar e ordenar os livros da biblioteca por tópico, o organizador lerá o título, resumo, e algum do texto interno de cada livro para descobrir do que se trata.

Informação de organização de robots rastejantes da Web

No entanto, ao contrário de uma biblioteca, a Internet não é composta de pilhas físicas de livros, e isso torna difícil dizer se toda a informação necessária foi indexada correctamente, ou se grandes quantidades da mesma estão a ser ignoradas. Para tentar encontrar toda a informação relevante que a Internet tem para oferecer, um robot web crawler começará com um certo conjunto de páginas web conhecidas e depois seguirá hiperligações dessas páginas para outras páginas, seguirá hiperligações dessas outras páginas para páginas adicionais, e assim por diante.

Desconhece quanto da Internet disponível ao público é realmente rastejado pelos robots dos motores de busca. Algumas fontes estimam que apenas 40-70% da Internet é indexada para pesquisa – e isso são biliões de páginas web.

O que é indexação de pesquisa?

A indexação de pesquisa é como criar um catálogo de cartões de biblioteca para a Internet, para que um motor de pesquisa saiba onde na Internet se pode obter informação quando uma pessoa a procura. Também pode ser comparado com o índice no verso de um livro, que lista todos os locais do livro onde um determinado tópico ou frase é mencionado.

Indexing centra-se principalmente no texto que aparece na página, e nos metadados* sobre a página que os utilizadores não vêem. Quando a maioria dos motores de busca indexam uma página, adicionam todas as palavras da página ao índice – excepto palavras como “a”, “an”, e “the” no caso do Google. Quando os utilizadores procuram essas palavras, o motor de busca percorre o seu índice de todas as páginas onde essas palavras aparecem e selecciona as mais relevantes.

*No contexto da indexação de pesquisa, metadados são dados que dizem aos motores de busca sobre o que é uma página web. Muitas vezes o meta título e a meta descrição são o que irá aparecer nas páginas de resultados dos motores de busca, em oposição ao conteúdo da página web que é visível para os utilizadores.

Como funcionam os rastejadores da web?

A Internet está em constante mudança e expansão. Porque não é possível saber quantas páginas web totais existem na Internet, os robots de web crawler começam a partir de uma semente, ou de uma lista de URLs conhecidos. Eles rastejam primeiro as páginas web nesses URLs. À medida que rastreiam essas páginas web, encontram hiperligações para outras URLs, e adicionam-nas à lista de páginas a rastrear a seguir.

Dado o vasto número de páginas web na Internet que poderiam ser indexadas para pesquisa, este processo poderia durar quase indefinidamente. Contudo, um web crawler seguirá certas políticas que o tornam mais selectivo sobre quais as páginas a rastejar, em que ordem as deve rastejar, e com que frequência as deve rastejar novamente para verificar actualizações de conteúdo.

A importância relativa de cada página web: A maioria dos web crawlers não rastejam toda a Internet disponível ao público e não é essa a sua intenção; em vez disso, decidem quais as páginas a rastejar primeiro com base no número de outras páginas que ligam a essa página, a quantidade de visitantes que essa página recebe, e outros factores que significam a probabilidade de a página conter informação importante.

A ideia é que uma página Web que é citada por muitas outras páginas e recebe muitos visitantes é susceptível de conter informação de alta qualidade e autorizada, por isso é especialmente importante que um motor de busca a tenha indexada – tal como uma biblioteca pode certificar-se de manter muitas cópias de um livro que é verificado por muitas pessoas.

Revisitar páginas Web: O conteúdo da Web é continuamente actualizado, removido ou transferido para novos locais. Os web crawlers terão de rever periodicamente as páginas para se certificarem de que a última versão do conteúdo é indexada.

Robots.txt requisitos: Os web crawlers também decidem quais as páginas a pesquisar com base no protocolo robots.txt (também conhecido como o protocolo de exclusão de robots). Antes de rastrearem uma página web, verificarão o ficheiro robots.txt alojado pelo servidor web dessa página. Um ficheiro robots.txt é um ficheiro de texto que especifica as regras para qualquer bots que aceda ao sítio web ou aplicação alojada. Estas regras definem quais as páginas que os bots podem rastejar, e que ligações podem seguir. Como exemplo, veja o ficheiro Cloudflare.com robots.txt file.

Todos estes factores são ponderados de forma diferente dentro dos algoritmos proprietários que cada motor de busca constrói nos seus bots aranha. Os rastejadores da Web de diferentes motores de busca comportar-se-ão de forma ligeiramente diferente, embora o objectivo final seja o mesmo: descarregar e indexar conteúdo de páginas web.

Porquê são os rastejadores da Web chamados ‘spiders’?

A Internet, ou pelo menos a parte a que a maioria dos utilizadores acede, é também conhecida como World Wide Web – de facto é daí que vem a parte “www” da maioria dos URLs de websites. Era natural chamar “spiders” aos motores de busca, porque eles rastejam por toda a Web, tal como as verdadeiras aranhas rastejam nas teias de aranha.

Deveria ser sempre permitido aos robots de rastreio da Web aceder às propriedades da Web?

Isso depende da propriedade da Web, e depende de uma série de factores. Os web crawlers requerem recursos do servidor a fim de indexar o conteúdo – fazem pedidos aos quais o servidor precisa de responder, tal como um utilizador que visita um website ou outros bots a aceder a um website. Dependendo da quantidade de conteúdo em cada página ou do número de páginas do sítio, poderia ser do interesse do operador do sítio não permitir a indexação de pesquisas com demasiada frequência, uma vez que uma indexação excessiva poderia sobrecarregar o servidor, aumentar os custos de largura de banda, ou ambos.

Também, os programadores ou empresas podem não querer que algumas páginas web sejam descobertos, a menos que um utilizador já tenha recebido um link para a página (sem colocar a página atrás de uma paywall ou de um login). Um exemplo de tal caso para as empresas é quando criam uma página de destino dedicada para uma campanha de marketing, mas não querem que ninguém não visado pela campanha aceda à página. Desta forma, podem adaptar as mensagens ou medir com precisão o desempenho da página. Nesses casos, a empresa pode adicionar uma etiqueta “no index” à página de destino, e esta não aparecerá nos resultados dos motores de busca. Também podem adicionar uma etiqueta “não permitir” na página ou no ficheiro robots.txt, e os spiders dos motores de busca não a rastejarão de todo.

Os proprietários de sítios Web podem não querer que os robots dos motores de busca rastejem parte ou todos os seus sítios também por uma variedade de outras razões. Por exemplo, um website que oferece aos utilizadores a possibilidade de pesquisar dentro do site pode querer bloquear as páginas de resultados de pesquisa, uma vez que estas não são úteis para a maioria dos utilizadores. Outras páginas geradas automaticamente que só são úteis para um utilizador ou para alguns utilizadores específicos também devem ser bloqueadas.

Qual é a diferença entre o “web crawling” e o “web scraping”?

“web scraping”, “data scraping”, ou “content scraping” é quando um bot descarrega o conteúdo de um sítio web sem permissão, muitas vezes com a intenção de usar esse conteúdo para um propósito malicioso.

“web scraping” é normalmente muito mais direccionado do que o “web crawling”. Os web scrapers podem estar atrás de páginas específicas ou apenas de sites específicos, enquanto os web crawlers continuarão a seguir as ligações e a rastejar páginas continuamente.

Também, os web scraper bots podem ignorar a tensão que colocam nos servidores web, enquanto os web crawlers, especialmente os dos principais motores de busca, obedecerão ao ficheiro robots.txt e limitarão os seus pedidos de modo a não sobrecarregar o servidor web.

Como é que os web crawlers afectam SEO?

SEO significa optimização para motores de busca, e é a disciplina de preparação de conteúdo para indexação de pesquisa de modo a que um website apareça mais alto nos resultados dos motores de busca.

Se os spider bots não rastrearem um website, então este não pode ser indexado, e não aparecerá nos resultados de pesquisa. Por esta razão, se o proprietário de um sítio web quiser obter tráfego orgânico dos resultados de pesquisa, é muito importante que não bloqueie os bots de rastreamento da web.

Que web crawler bots estão activos na Internet?

Os bots dos principais motores de busca chamam-se:

Google: Googlebot (na realidade dois crawlers, Googlebot Desktop e Googlebot Mobile, para pesquisas no desktop e no telemóvel)
Bing: Bingbot
Yandex (motor de busca russo): Yandex Bot
Baidu (motor de busca chinês): Baidu Spider

Existem também muitos bots de web crawler menos comuns, alguns dos quais não estão associados a nenhum motor de busca.

Por que é importante para a gestão de bot ter em conta o web crawling?

Bad bots podem causar muitos danos, desde más experiências de utilizador a falhas de servidor e roubo de dados. No entanto, ao bloquear maus bots, é importante ainda permitir que bons bots, tais como os que rastejam na web, tenham acesso às propriedades da web. O Cloudflare Bot Management permite que os bons bots continuem a aceder a sítios web, ao mesmo tempo que atenuam o tráfego de bot maliciosos. O produto mantém uma lista de permissão automaticamente actualizada de bons bots, como os web crawlers, para garantir que não são bloqueados.