Cos'è un web crawler? | Come funzionano i ragni web

Cos’è un web crawler bot?

Un web crawler, spider, o motore di ricerca bot scarica e indicizza contenuti da tutta Internet. L’obiettivo di un tale bot è quello di imparare ciò che (quasi) ogni pagina web riguarda, in modo che l’informazione possa essere recuperata quando è necessario. Sono chiamati “web crawler” perché crawling è il termine tecnico per accedere automaticamente a un sito web e ottenere dati tramite un programma software.

Questi bot sono quasi sempre gestiti da motori di ricerca. Applicando un algoritmo di ricerca ai dati raccolti dai web crawler, i motori di ricerca possono fornire link pertinenti in risposta alle query di ricerca degli utenti, generando la lista di pagine web che appaiono dopo che un utente digita una ricerca su Google o Bing (o un altro motore di ricerca).

Un web crawler bot è come qualcuno che passa in rassegna tutti i libri in una biblioteca disorganizzata e mette insieme un catalogo a schede in modo che chiunque visiti la biblioteca possa trovare rapidamente e facilmente le informazioni di cui ha bisogno. Per aiutare a categorizzare e ordinare i libri della biblioteca per argomento, l’organizzatore leggerà il titolo, il sommario e parte del testo interno di ogni libro per capire di cosa si tratta.

Web crawler bot che organizza le informazioni

Tuttavia, a differenza di una biblioteca, Internet non è composta da pile fisiche di libri, e questo rende difficile dire se tutte le informazioni necessarie sono state indicizzate correttamente, o se grandi quantità di esse vengono trascurate. Per cercare di trovare tutte le informazioni rilevanti che Internet ha da offrire, un web crawler bot inizia con un certo insieme di pagine web conosciute e poi segue i collegamenti ipertestuali da quelle pagine ad altre pagine, segue i collegamenti ipertestuali da queste altre pagine ad altre pagine, e così via.

Non si sa quanta parte di Internet disponibile al pubblico sia effettivamente scansionata dai bot dei motori di ricerca. Alcune fonti stimano che solo il 40-70% di Internet è indicizzato per la ricerca – e si tratta di miliardi di pagine web.

Che cos’è l’indicizzazione della ricerca?

L’indicizzazione della ricerca è come creare un catalogo della biblioteca per Internet in modo che un motore di ricerca sappia dove recuperare le informazioni su Internet quando una persona le cerca. Può anche essere paragonato all’indice nel retro di un libro, che elenca tutti i luoghi del libro dove viene menzionato un certo argomento o frase.

L’indicizzazione si concentra principalmente sul testo che appare sulla pagina, e sui metadati* della pagina che gli utenti non vedono. Quando la maggior parte dei motori di ricerca indicizza una pagina, aggiunge tutte le parole della pagina all’indice – tranne le parole come “a”, “an” e “the” nel caso di Google. Quando gli utenti cercano quelle parole, il motore di ricerca passa attraverso il suo indice di tutte le pagine dove appaiono quelle parole e seleziona quelle più rilevanti.

*Nel contesto dell’indicizzazione della ricerca, i metadati sono dati che dicono ai motori di ricerca di cosa tratta una pagina web. Spesso il meta titolo e la meta descrizione sono ciò che apparirà nelle pagine dei risultati dei motori di ricerca, al contrario del contenuto della pagina web visibile agli utenti.

Come funzionano i web crawler?

Internet è in continua evoluzione ed espansione. Poiché non è possibile sapere quante pagine web ci sono in totale su Internet, i web crawler bot partono da un seme, o da una lista di URL conosciuti. Per prima cosa scansionano le pagine web di questi URL. Mentre scansionano quelle pagine web, troveranno collegamenti ipertestuali ad altri URL, e li aggiungeranno alla lista delle pagine da scansionare successivamente.

Dato il vasto numero di pagine web su Internet che potrebbero essere indicizzate per la ricerca, questo processo potrebbe andare avanti quasi indefinitamente. Tuttavia, un web crawler seguirà alcune politiche che lo rendono più selettivo su quali pagine scansionare, in quale ordine scansionarle, e quanto spesso dovrebbe scansionarle di nuovo per controllare gli aggiornamenti del contenuto.

L’importanza relativa di ogni pagina web: La maggior parte dei web crawler non scansionano l’intera Internet disponibile al pubblico e non sono destinati a farlo; invece decidono quali pagine scansionare per prime in base al numero di altre pagine che si collegano a quella pagina, la quantità di visitatori che quella pagina riceve, e altri fattori che indicano la probabilità che la pagina contenga informazioni importanti.

L’idea è che una pagina web che è citata da molte altre pagine web e che riceve molti visitatori è probabile che contenga informazioni autorevoli e di alta qualità, quindi è particolarmente importante che un motore di ricerca l’abbia indicizzata – proprio come una biblioteca potrebbe assicurarsi di conservare molte copie di un libro che viene preso in prestito da molte persone.

Rivedere le pagine web: Il contenuto sul web viene continuamente aggiornato, rimosso o spostato in nuove posizioni. I web crawler devono periodicamente rivisitare le pagine per assicurarsi che l’ultima versione del contenuto sia indicizzata.

Robots.txt requisiti: I web crawler decidono anche quali pagine scansionare in base al protocollo robots.txt (noto anche come protocollo di esclusione dei robot). Prima di scansionare una pagina web, controllano il file robots.txt ospitato dal server web di quella pagina. Un file robots.txt è un file di testo che specifica le regole per qualsiasi bot che accede al sito web ospitato o all’applicazione. Queste regole definiscono quali pagine i bot possono scansionare e quali link possono seguire. Come esempio, date un’occhiata al file robots.txt di Cloudflare.com.

Tutti questi fattori sono ponderati in modo diverso negli algoritmi proprietari che ogni motore di ricerca costruisce nei suoi spider bot. I web crawler dei diversi motori di ricerca si comportano in modo leggermente diverso, anche se l’obiettivo finale è lo stesso: scaricare e indicizzare il contenuto delle pagine web.

Perché i web crawler sono chiamati ‘spider’?

Internet, o almeno la parte a cui accede la maggior parte degli utenti, è conosciuta anche come World Wide Web – infatti è da lì che deriva la parte “www” della maggior parte degli URL dei siti web. È stato naturale chiamare i bot dei motori di ricerca “spider”, perché strisciano su tutto il web, proprio come i veri ragni strisciano sulle ragnatele.

I web crawler devono sempre avere accesso alle proprietà web?

Questo dipende dalla proprietà web, e dipende da una serie di fattori. I web crawler richiedono risorse del server per indicizzare il contenuto – fanno richieste a cui il server deve rispondere, proprio come un utente che visita un sito web o altri bot che accedono a un sito web. A seconda della quantità di contenuto di ogni pagina o del numero di pagine del sito, potrebbe essere nell’interesse dell’operatore del sito web non permettere l’indicizzazione di ricerca troppo spesso, poiché troppa indicizzazione potrebbe sovraccaricare il server, far salire i costi della larghezza di banda, o entrambi.

Inoltre, gli sviluppatori o le aziende potrebbero non volere che alcune pagine web siano scopribili a meno che un utente non abbia già ricevuto un link alla pagina (senza mettere la pagina dietro un paywall o un login). Un esempio di questo caso per le imprese è quando creano una pagina di destinazione dedicata per una campagna di marketing, ma non vogliono che chiunque non sia interessato dalla campagna acceda alla pagina. In questo modo possono personalizzare la messaggistica o misurare con precisione le prestazioni della pagina. In questi casi l’azienda può aggiungere un tag “no index” alla pagina di destinazione, e non apparirà nei risultati dei motori di ricerca. Possono anche aggiungere un tag “disallow” nella pagina o nel file robots.txt, e gli spider dei motori di ricerca non la scansioneranno affatto.

I proprietari dei siti web possono non volere che i bot scansionino una parte o tutti i loro siti anche per una varietà di altre ragioni. Per esempio, un sito web che offre agli utenti la possibilità di effettuare ricerche all’interno del sito potrebbe voler bloccare le pagine dei risultati di ricerca, poiché queste non sono utili alla maggior parte degli utenti. Anche altre pagine generate automaticamente che sono utili solo per un utente o per alcuni utenti specifici dovrebbero essere bloccate.

Qual è la differenza tra web crawling e web scraping?

Web scraping, data scraping, o content scraping è quando un bot scarica il contenuto di un sito web senza permesso, spesso con l’intenzione di usare quel contenuto per uno scopo malevolo.

Web scraping è di solito molto più mirato del web crawling. I web scraper possono essere alla ricerca di pagine specifiche o solo di siti web specifici, mentre i web crawler continueranno a seguire i link e a scansionare le pagine continuamente.

Inoltre, i web scraper bot possono ignorare lo sforzo che fanno sui web server, mentre i web crawler, specialmente quelli dei principali motori di ricerca, obbediscono al file robots.txt e limitano le loro richieste in modo da non sovraccaricare il web server.

Come influiscono i web crawler sul SEO?

SEO sta per search engine optimization, ed è la disciplina di preparare il contenuto per l’indicizzazione di ricerca in modo che un sito web appaia più in alto nei risultati dei motori di ricerca.

Se gli spider bot non scansionano un sito web, allora non può essere indicizzato, e non apparirà nei risultati di ricerca. Per questo motivo, se il proprietario di un sito web vuole ottenere traffico organico dai risultati di ricerca, è molto importante che non blocchi i web crawler bot.

Quali web crawler bot sono attivi su Internet?

I bot dei principali motori di ricerca sono chiamati:

Google: Googlebot (in realtà due crawler, Googlebot Desktop e Googlebot Mobile, per le ricerche su desktop e mobile)
Bing: Bingbot
Yandex (motore di ricerca russo): Yandex Bot
Baidu (motore di ricerca cinese): Baidu Spider

Ci sono anche molti bot meno comuni, alcuni dei quali non sono associati a nessun motore di ricerca.

Perché è importante che la gestione dei bot tenga conto del web crawling?

I bot cattivi possono causare un sacco di danni, da esperienze utente scadenti a crash del server fino al furto di dati. Tuttavia, nel bloccare i bot cattivi, è importante consentire ancora ai bot buoni, come i web crawler, di accedere alle proprietà web. Cloudflare Bot Management permette ai bot buoni di continuare ad accedere ai siti web mentre attenua il traffico bot dannoso. Il prodotto mantiene una allowlist automaticamente aggiornata di bot buoni, come i web crawler, per garantire che non vengano bloccati.

Cos’è un web crawler? | Come funzionano i ragni web