Qu'est-ce qu'un robot d'exploration du Web ? | Comment fonctionnent les araignées Web

Qu’est-ce qu’un robot d’exploration du Web ?

Un robot d’exploration du Web, une araignée ou un robot de moteur de recherche télécharge et indexe le contenu de tout l’Internet. L’objectif d’un tel bot est d’apprendre de quoi parle (presque) chaque page web sur le web, afin de pouvoir récupérer l’information quand on en a besoin. On les appelle « web crawlers » car « crawling » est le terme technique pour accéder automatiquement à un site web et obtenir des données via un logiciel.

Ces bots sont presque toujours exploités par des moteurs de recherche. En appliquant un algorithme de recherche aux données collectées par les robots d’exploration du Web, les moteurs de recherche peuvent fournir des liens pertinents en réponse aux requêtes de recherche des utilisateurs, générant ainsi la liste des pages Web qui s’affichent après qu’un utilisateur a tapé une recherche dans Google ou Bing (ou un autre moteur de recherche).

Un robot d’exploration du Web est comme quelqu’un qui passe en revue tous les livres d’une bibliothèque désorganisée et met en place un catalogue sur fiches afin que toute personne qui visite la bibliothèque puisse trouver rapidement et facilement les informations dont elle a besoin. Pour aider à catégoriser et à trier les livres de la bibliothèque par sujet, l’organisateur lira le titre, le résumé et une partie du texte interne de chaque livre pour comprendre de quoi il s’agit.

Le robot d'exploration du Web organise les informations

Cependant, contrairement à une bibliothèque, Internet n’est pas composé de piles physiques de livres, et cela rend difficile de dire si toutes les informations nécessaires ont été indexées correctement, ou si de vastes quantités d’entre elles sont négligées. Pour essayer de trouver toutes les informations pertinentes que l’Internet a à offrir, un robot d’exploration du Web commencera par un certain ensemble de pages Web connues, puis suivra les hyperliens de ces pages vers d’autres pages, suivra les hyperliens de ces autres pages vers des pages supplémentaires, et ainsi de suite.

On ignore quelle proportion de l’Internet disponible publiquement est réellement explorée par les robots des moteurs de recherche. Certaines sources estiment que seulement 40 à 70 % d’Internet est indexé pour la recherche – et cela représente des milliards de pages web.

Qu’est-ce que l’indexation de recherche ?

L’indexation de recherche revient à créer un catalogue de cartes de bibliothèque pour Internet afin qu’un moteur de recherche sache où sur Internet récupérer les informations lorsqu’une personne les recherche. On peut également la comparer à l’index à la fin d’un livre, qui répertorie tous les endroits du livre où un certain sujet ou une certaine phrase est mentionné.

L’indexation se concentre principalement sur le texte qui apparaît sur la page, et sur les métadonnées* concernant la page que les utilisateurs ne voient pas. Lorsque la plupart des moteurs de recherche indexent une page, ils ajoutent tous les mots de la page à l’index – à l’exception des mots comme « a », « an » et « le » dans le cas de Google. Lorsque les utilisateurs recherchent ces mots, le moteur de recherche parcourt son index de toutes les pages où ces mots apparaissent et sélectionne les plus pertinentes.

Dans le contexte de l’indexation des recherches, les métadonnées sont des données qui indiquent aux moteurs de recherche de quoi parle une page web. Souvent, le méta titre et la méta description sont ce qui apparaîtra sur les pages de résultats des moteurs de recherche, par opposition au contenu de la page web qui est visible par les utilisateurs.

Comment fonctionnent les crawlers web ?

Internet est en constante évolution et expansion. Comme il n’est pas possible de savoir combien de pages web totales il y a sur Internet, les robots d’exploration web commencent à partir d’une graine, ou d’une liste d’URL connues. Ils explorent d’abord les pages Web de ces URL. Au fur et à mesure qu’ils crawlent ces pages web, ils trouvent des hyperliens vers d’autres URL, et ils les ajoutent à la liste des pages à crawler ensuite.

Compte tenu du grand nombre de pages web sur Internet qui pourraient être indexées pour la recherche, ce processus pourrait se poursuivre presque indéfiniment. Cependant, un crawler web suivra certaines politiques qui le rendent plus sélectif quant aux pages à crawler, à l’ordre dans lequel il doit les crawler et à la fréquence à laquelle il doit les crawler à nouveau pour vérifier les mises à jour du contenu.

L’importance relative de chaque page web : La plupart des crawlers web n’explorent pas l’ensemble de l’Internet public disponible et n’ont pas vocation à le faire ; ils décident plutôt des pages à crawler en premier en fonction du nombre d’autres pages qui renvoient à cette page, de la quantité de visiteurs que cette page reçoit et d’autres facteurs qui signifient la probabilité que la page contienne des informations importantes.

L’idée est qu’une page web qui est citée par beaucoup d’autres pages web et qui reçoit beaucoup de visiteurs est susceptible de contenir des informations de haute qualité et faisant autorité, il est donc particulièrement important qu’un moteur de recherche l’ait indexée – tout comme une bibliothèque pourrait s’assurer de conserver de nombreuses copies d’un livre qui est emprunté par beaucoup de personnes.

Réviser les pages web : Le contenu sur le Web est continuellement mis à jour, supprimé ou déplacé vers de nouveaux emplacements. Les crawlers Web devront périodiquement revisiter les pages pour s’assurer que la dernière version du contenu est indexée.

Robots.txt exigences : Les crawlers Web décident également des pages à crawler en fonction du protocole robots.txt (également connu sous le nom de protocole d’exclusion des robots). Avant de crawler une page Web, ils vérifient le fichier robots.txt hébergé par le serveur Web de cette page. Un fichier robots.txt est un fichier texte qui spécifie les règles applicables aux robots accédant au site Web ou à l’application hébergée. Ces règles définissent les pages que les robots peuvent explorer et les liens qu’ils peuvent suivre. À titre d’exemple, consultez le fichier robots.txt de Cloudflare.com.

Tous ces facteurs sont pondérés différemment au sein des algorithmes propriétaires que chaque moteur de recherche intègre dans ses robots d’araignée. Les robots d’exploration Web de différents moteurs de recherche se comporteront de manière légèrement différente, bien que l’objectif final soit le même : télécharger et indexer le contenu des pages Web.

Pourquoi les robots d’exploration Web sont-ils appelés » araignées » ?

L’Internet, ou du moins la partie à laquelle la plupart des utilisateurs accèdent, est également connu sous le nom de World Wide Web – en fait, c’est de là que vient la partie » www » de la plupart des URL des sites Web. Il était tout naturel d’appeler les robots des moteurs de recherche des « araignées », car ils rampent sur tout le Web, tout comme les vraies araignées rampent sur les toiles d’araignée.

Les robots des moteurs de recherche doivent-ils toujours être autorisés à accéder aux propriétés Web ?

C’est à la propriété Web de décider, et cela dépend d’un certain nombre de facteurs. Les robots d’exploration Web ont besoin des ressources du serveur pour indexer le contenu – ils font des demandes auxquelles le serveur doit répondre, tout comme un utilisateur qui visite un site Web ou d’autres bots qui accèdent à un site Web. En fonction de la quantité de contenu sur chaque page ou du nombre de pages sur le site, il pourrait être dans l’intérêt de l’exploitant du site web de ne pas autoriser l’indexation de recherche trop souvent, car une indexation trop importante pourrait surcharger le serveur, faire grimper les coûts de bande passante, ou les deux.

De plus, les développeurs ou les entreprises pourraient ne pas vouloir que certaines pages web soient découvrables à moins qu’un utilisateur ait déjà reçu un lien vers la page (sans mettre la page derrière un paywall ou un login). Un exemple d’un tel cas pour les entreprises est lorsqu’elles créent une page de destination dédiée pour une campagne de marketing, mais qu’elles ne veulent pas que quiconque n’est pas ciblé par la campagne accède à la page. De cette façon, elles peuvent adapter le message ou mesurer précisément les performances de la page. Dans ce cas, l’entreprise peut ajouter une balise « no index » à la page de destination, qui n’apparaîtra pas dans les résultats des moteurs de recherche. Elle peut également ajouter une balise « disallow » dans la page ou dans le fichier robots.txt, et les robots des moteurs de recherche ne l’exploreront pas du tout.

Les propriétaires de sites web peuvent ne pas vouloir que les robots des moteurs de recherche explorent une partie ou la totalité de leurs sites pour diverses autres raisons également. Par exemple, un site Web qui offre aux utilisateurs la possibilité de faire des recherches à l’intérieur du site peut vouloir bloquer les pages de résultats de recherche, car elles ne sont pas utiles pour la plupart des utilisateurs. D’autres pages générées automatiquement qui ne sont utiles que pour un utilisateur ou quelques utilisateurs spécifiques devraient également être bloquées.

Quelle est la différence entre le web crawling et le web scraping ?

Le web scraping, le data scraping ou le content scraping consiste en ce qu’un bot télécharge le contenu d’un site web sans autorisation, souvent dans l’intention d’utiliser ce contenu à des fins malveillantes.

Le web scraping est généralement beaucoup plus ciblé que le web crawling. Les web scrapers peuvent s’en prendre à des pages spécifiques ou à des sites web spécifiques uniquement, tandis que les web crawlers continueront à suivre les liens et à explorer les pages en continu.

De plus, les bots des web scraper peuvent ne pas tenir compte de la pression qu’ils exercent sur les serveurs web, tandis que les web crawlers, en particulier ceux des principaux moteurs de recherche, obéiront au fichier robots.txt et limiteront leurs requêtes afin de ne pas surcharger le serveur web.

Comment les crawlers web affectent-ils le référencement ?

Le référencement est l’acronyme de Search Engine Optimization (optimisation pour les moteurs de recherche), et c’est la discipline qui consiste à préparer le contenu pour l’indexation par les moteurs de recherche afin qu’un site web apparaisse plus haut dans les résultats des moteurs de recherche.

Si les robots araignées ne crawlent pas un site web, alors il ne peut pas être indexé, et il n’apparaîtra pas dans les résultats de recherche. Pour cette raison, si un propriétaire de site Web veut obtenir du trafic organique à partir des résultats de recherche, il est très important qu’il ne bloque pas les robots d’araignée.

Quels robots d’araignée sont actifs sur Internet ?

Les robots des principaux moteurs de recherche sont appelés :

Google : Googlebot (en fait deux robots d’exploration, Googlebot Desktop et Googlebot Mobile, pour les recherches sur ordinateur de bureau et sur mobile)
Bing : Bingbot
Yandex (moteur de recherche russe) : Yandex Bot
Baidu (moteur de recherche chinois) : Baidu Spider

Il existe également de nombreux bots d’exploration du Web moins courants, dont certains ne sont associés à aucun moteur de recherche.

Pourquoi est-il important que la gestion des bots prenne en compte l’exploration du Web ?

Les mauvais bots peuvent causer beaucoup de dommages, des mauvaises expériences des utilisateurs aux crashs de serveurs en passant par le vol de données. Cependant, en bloquant les mauvais bots, il est important de continuer à permettre aux bons bots, tels que les crawlers web, d’accéder aux propriétés web. Cloudflare Bot Management permet aux bons robots de continuer à accéder aux sites Web tout en atténuant le trafic des robots malveillants. Le produit maintient une liste d’autorisation automatiquement mise à jour des bons bots, comme les crawlers web, afin de s’assurer qu’ils ne sont pas bloqués.

Qu’est-ce qu’un robot d’exploration du Web ? | Comment fonctionnent les araignées Web