Wat is een web crawler bot?
Een web crawler, spider of zoekmachine bot downloadt en indexeert inhoud van over het hele internet. Het doel van zo’n bot is om te leren waar (bijna) elke webpagina op het web over gaat, zodat de informatie kan worden opgehaald wanneer die nodig is. Ze worden “web crawlers” genoemd, omdat crawling de technische term is voor het automatisch openen van een website en het verkrijgen van gegevens via een softwareprogramma.
Deze bots worden bijna altijd bediend door zoekmachines. Door een zoekalgoritme toe te passen op de gegevens die door webcrawlers worden verzameld, kunnen zoekmachines relevante links aanbieden als antwoord op zoekopdrachten van gebruikers, en zo de lijst met webpagina’s genereren die verschijnt nadat een gebruiker een zoekopdracht in Google of Bing (of een andere zoekmachine) heeft ingetikt.
Een webcrawler-bot is als iemand die alle boeken in een ongeorganiseerde bibliotheek doorneemt en een kaartcatalogus samenstelt, zodat iedereen die de bibliotheek bezoekt snel en gemakkelijk de informatie kan vinden die hij of zij nodig heeft. Om de boeken van de bibliotheek te categoriseren en op onderwerp te sorteren, leest de organisator de titel, de samenvatting en een deel van de interne tekst van elk boek om erachter te komen waar het over gaat.
In tegenstelling tot een bibliotheek bestaat het internet echter niet uit fysieke stapels boeken, en dat maakt het moeilijk om te bepalen of alle benodigde informatie goed is geïndexeerd, of dat er enorme hoeveelheden over het hoofd worden gezien. Om te proberen alle relevante informatie op het Internet te vinden, begint een web crawler bot met een bepaalde set bekende webpagina’s en volgt dan hyperlinks van die pagina’s naar andere pagina’s, volgt hyperlinks van die andere pagina’s naar nog meer pagina’s, enzovoort.
Hoeveel van het openbaar toegankelijke Internet daadwerkelijk door zoekmachine bots wordt gecrawld, is onbekend. Sommige bronnen schatten dat slechts 40-70% van het internet is geïndexeerd voor zoekopdrachten – en dat zijn miljarden webpagina’s.
Wat is zoekindexering?
Zoekindexering is zoiets als het maken van een bibliotheekkaartcatalogus voor het internet, zodat een zoekmachine weet waar op het internet informatie moet worden opgehaald als iemand ernaar zoekt. Je kunt het ook vergelijken met de index achter in een boek, waarin alle plaatsen in het boek staan waar een bepaald onderwerp of woordgroep wordt genoemd.
Indexeren richt zich vooral op de tekst die op de pagina staat, en op de metadata* over de pagina die gebruikers niet zien. Wanneer de meeste zoekmachines een pagina indexeren, voegen ze alle woorden op de pagina toe aan de index – met uitzondering van woorden als “a,” “an,” en “the” in Google’s geval. Wanneer gebruikers naar die woorden zoeken, gaat de zoekmachine door zijn index van alle pagina’s waar die woorden voorkomen en selecteert de meest relevante.
*In de context van zoekindexering zijn metadata gegevens die zoekmachines vertellen waar een webpagina over gaat. Vaak zijn het de meta-titel en meta-beschrijving die op de resultatenpagina’s van zoekmachines verschijnen, in tegenstelling tot de inhoud van de webpagina die zichtbaar is voor gebruikers.
Hoe werken webcrawlers?
Het internet verandert voortdurend en breidt zich steeds verder uit. Omdat niet bekend is hoeveel webpagina’s er in totaal op internet zijn, gaan webcrawler-bots uit van een zaadje, oftewel een lijst met bekende URL’s. Ze crawlen de webpagina’s op een bepaalde URL. Zij crawlen eerst de webpagina’s op die URL’s. Bij het crawlen van die webpagina’s vinden ze hyperlinks naar andere URL’s, en die voegen ze toe aan de lijst van te crawlen pagina’s.
Gezien het enorme aantal webpagina’s op het Internet dat kan worden geïndexeerd voor zoekopdrachten, zou dit proces bijna oneindig door kunnen gaan. Een webcrawler zal echter bepaalde beleidsregels volgen die hem selectiever maken over welke pagina’s hij moet crawlen, in welke volgorde hij ze moet crawlen, en hoe vaak hij ze opnieuw moet crawlen om te controleren of de inhoud is bijgewerkt.
Het relatieve belang van elke webpagina: De meeste webcrawlers crawlen niet het hele openbare internet, en dat is ook niet de bedoeling; in plaats daarvan besluiten ze welke pagina’s ze als eerste crawlen op basis van het aantal andere pagina’s dat naar die pagina linkt, het aantal bezoekers dat die pagina krijgt, en andere factoren die aangeven hoe waarschijnlijk het is dat de pagina belangrijke informatie bevat.
Het idee is dat een webpagina die door veel andere webpagina’s wordt geciteerd en veel bezoekers krijgt, waarschijnlijk gezaghebbende informatie van hoge kwaliteit bevat, zodat het bijzonder belangrijk is dat een zoekmachine deze geïndexeerd heeft – net zoals een bibliotheek ervoor zorgt dat er veel kopieën zijn van een boek dat door veel mensen wordt uitgeleend.
Herzien van webpagina’s: Inhoud op het web wordt voortdurend bijgewerkt, verwijderd of verplaatst naar nieuwe locaties. Webcrawlers moeten pagina’s regelmatig opnieuw bezoeken om er zeker van te zijn dat de laatste versie van de inhoud wordt geïndexeerd.
Robots.txt-vereisten: Web crawlers beslissen ook welke pagina’s te crawlen op basis van het robots.txt protocol (ook bekend als het robots exclusion protocol). Voordat ze een webpagina crawlen, controleren ze het robots.txt-bestand dat op de webserver van die pagina staat. Een robots.txt-bestand is een tekstbestand waarin de regels staan voor alle bots die de gehoste website of applicatie bezoeken. Deze regels bepalen welke pagina’s de bots mogen crawlen, en welke links ze mogen volgen. Kijk bijvoorbeeld eens naar het robots.txt-bestand van Cloudflare.com.
Al deze factoren worden verschillend gewogen in de eigen algoritmen die elke zoekmachine in zijn spider-bots inbouwt. Webcrawlers van verschillende zoekmachines zullen zich net iets anders gedragen, hoewel het einddoel hetzelfde is: inhoud van webpagina’s downloaden en indexeren.
Waarom worden webcrawlers ‘spiders’ genoemd?
Het Internet, of in ieder geval het deel waar de meeste gebruikers toegang toe hebben, staat ook wel bekend als het World Wide Web – in feite is dat waar het ‘www’-gedeelte van de meeste website-URL’s vandaan komt. Het was niet meer dan natuurlijk om zoekmachine-bots “spiders” te noemen, omdat ze over het hele Web kruipen, net zoals echte spinnen over spinnenwebben kruipen.
Moeten webcrawler-bots altijd toegang krijgen tot web-eigenschappen?
Dat is aan het web-eigendom, en het hangt af van een aantal factoren. Web crawlers hebben server resources nodig om content te indexeren – ze doen verzoeken waar de server op moet reageren, net als een gebruiker die een website bezoekt of andere bots die een website benaderen. Afhankelijk van de hoeveelheid inhoud op elke pagina of het aantal pagina’s op de site, kan het in het belang van de websitebeheerder zijn om niet te vaak zoekindexen toe te staan, omdat te veel indexeren de server kan overbelasten, de bandbreedtekosten kan opdrijven, of beide.
Ook kan het zijn dat ontwikkelaars of bedrijven niet willen dat sommige webpagina’s vindbaar zijn, tenzij een gebruiker al een link naar de pagina heeft gekregen (zonder de pagina achter een paywall of een login te plaatsen). Een voorbeeld van zo’n geval voor bedrijven is wanneer ze een speciale landingspagina voor een marketingcampagne maken, maar niet willen dat iemand die niet het doelwit van de campagne is, toegang krijgt tot de pagina. Op die manier kunnen ze de berichtgeving aanpassen of de prestaties van de pagina nauwkeurig meten. In dergelijke gevallen kan de onderneming een “no index” tag toevoegen aan de landingspagina, zodat deze niet wordt weergegeven in de resultaten van zoekmachines. Ze kunnen ook een “disallow”-tag toevoegen aan de pagina of in het robots.txt-bestand, en dan zullen zoekmachinespiders de pagina helemaal niet crawlen.
Website-eigenaren willen soms ook om allerlei andere redenen niet dat webcrawlers hun sites geheel of gedeeltelijk crawlen. Een website die gebruikers de mogelijkheid biedt om binnen de site te zoeken, kan bijvoorbeeld de pagina’s met zoekresultaten willen blokkeren, omdat deze voor de meeste gebruikers niet nuttig zijn. Andere automatisch gegenereerde pagina’s die slechts nuttig zijn voor één gebruiker of een paar specifieke gebruikers moeten ook worden geblokkeerd.
Wat is het verschil tussen web crawling en web scraping?
Web scraping, data scraping, of content scraping is wanneer een bot zonder toestemming de inhoud van een website downloadt, vaak met de bedoeling om die inhoud voor een kwaadaardig doel te gebruiken.
Web scraping is meestal veel gerichter dan web crawling. Web scrapers kunnen alleen uit zijn op specifieke pagina’s of specifieke websites, terwijl web crawlers links blijven volgen en continu pagina’s crawlen.
Ook kunnen web scraper bots de belasting die ze op webservers uitoefenen negeren, terwijl web crawlers, vooral die van grote zoekmachines, zich zullen houden aan het robots.txt bestand en hun verzoeken zullen beperken om de webserver niet te zwaar te belasten.
Hoe beïnvloeden webcrawlers SEO?
SEO staat voor search engine optimization, en is de discipline van het klaarmaken van content voor zoekindexering, zodat een website hoger in de zoekmachineresultaten verschijnt.
Als spiderbots een website niet crawlen, kan deze niet worden geïndexeerd, en zal deze niet in de zoekresultaten te zien zijn. Als een website-eigenaar organisch verkeer uit de zoekresultaten wil halen, is het daarom heel belangrijk dat hij webcrawler-bots niet blokkeert.
Welke webcrawler-bots zijn er actief op internet?
De bots van de grote zoekmachines heten:
- Google: Googlebot (eigenlijk twee crawlers, Googlebot Desktop en Googlebot Mobile, voor desktop en mobiele zoekopdrachten)
- Bing: Bingbot
- Yandex (Russische zoekmachine): Yandex Bot
- Baidu (Chinese zoekmachine): Baidu Spider
Er zijn ook veel minder gebruikelijke web crawler bots, waarvan sommige niet geassocieerd worden met een zoekmachine.
Waarom is het belangrijk om bij bot management rekening te houden met web crawling?
Slechte bots kunnen veel schade aanrichten, van slechte gebruikerservaringen tot server crashes tot data diefstal. Bij het blokkeren van slechte bots is het echter belangrijk om goede bots, zoals webcrawlers, nog steeds toegang te geven tot webeigenschappen. Cloudflare Bot Management zorgt ervoor dat goede bots toegang kunnen blijven houden tot websites terwijl kwaadaardig botverkeer wordt beperkt. Het product onderhoudt een automatisch bijgewerkte lijst van goede bots, zoals webcrawlers, om ervoor te zorgen dat ze niet worden geblokkeerd.