Was ist ein Web Crawler? | Home Healthcare

Was ist ein Web-Crawler-Bot?

Ein Web-Crawler, Spider oder Suchmaschinen-Bot lädt Inhalte aus dem gesamten Internet herunter und indiziert sie. Das Ziel eines solchen Bots ist es, zu lernen, worum es auf (fast) jeder Webseite im Web geht, so dass die Informationen abgerufen werden können, wenn sie benötigt werden. Man nennt sie „Web-Crawler“, weil Crawling der Fachbegriff für den automatischen Zugriff auf eine Website und die Beschaffung von Daten durch ein Softwareprogramm ist.

Diese Bots werden fast immer von Suchmaschinen betrieben. Durch die Anwendung eines Suchalgorithmus auf die von Web-Crawlern gesammelten Daten können Suchmaschinen relevante Links als Antwort auf Suchanfragen von Nutzern bereitstellen und so die Liste der Webseiten generieren, die angezeigt werden, nachdem ein Nutzer eine Suche in Google oder Bing (oder einer anderen Suchmaschine) eingegeben hat.

Ein Web-Crawler-Bot ist wie jemand, der alle Bücher in einer unorganisierten Bibliothek durchgeht und einen Zettelkatalog zusammenstellt, damit jeder, der die Bibliothek besucht, die benötigten Informationen schnell und einfach finden kann. Um zu helfen, die Bücher der Bibliothek nach Themen zu kategorisieren und zu sortieren, liest der Organisator den Titel, die Zusammenfassung und einen Teil des internen Textes jedes Buches, um herauszufinden, worum es geht.

Web-Crawler-Bot organisiert Informationen

Im Gegensatz zu einer Bibliothek besteht das Internet jedoch nicht aus physischen Bücherstapeln, und das macht es schwer zu sagen, ob alle notwendigen Informationen richtig indiziert wurden oder ob große Mengen davon übersehen werden. Um zu versuchen, alle relevanten Informationen zu finden, die das Internet zu bieten hat, beginnt ein Web-Crawler-Bot mit einem bestimmten Satz bekannter Webseiten und folgt dann Hyperlinks von diesen Seiten zu anderen Seiten, folgt Hyperlinks von diesen anderen Seiten zu weiteren Seiten, und so weiter.

Es ist unbekannt, wie viel des öffentlich zugänglichen Internets tatsächlich von Suchmaschinen-Bots gecrawlt wird. Einige Quellen schätzen, dass nur 40-70% des Internets für die Suche indiziert sind – und das sind Milliarden von Webseiten.

Was ist Suchindizierung?

Suchindizierung ist wie die Erstellung eines Bibliothekskartenkatalogs für das Internet, damit eine Suchmaschine weiß, wo im Internet sie Informationen finden kann, wenn eine Person danach sucht. Es kann auch mit dem Index hinten in einem Buch verglichen werden, der alle Stellen im Buch auflistet, an denen ein bestimmtes Thema oder eine Phrase erwähnt wird.

Die Indexierung konzentriert sich hauptsächlich auf den Text, der auf der Seite erscheint, und auf die Metadaten* über die Seite, die Benutzer nicht sehen. Wenn die meisten Suchmaschinen eine Seite indizieren, fügen sie alle Wörter auf der Seite dem Index hinzu – mit Ausnahme von Wörtern wie „a“, „an“ und „die“ im Fall von Google. Wenn Nutzer nach diesen Wörtern suchen, geht die Suchmaschine durch ihren Index aller Seiten, auf denen diese Wörter vorkommen, und wählt die relevantesten aus.

*Im Kontext der Suchindexierung sind Metadaten Daten, die den Suchmaschinen mitteilen, worum es auf einer Webseite geht. Oft sind der Meta-Titel und die Meta-Beschreibung das, was auf den Ergebnisseiten der Suchmaschinen erscheint, im Gegensatz zu den Inhalten der Webseite, die für die Benutzer sichtbar sind.

Wie arbeiten Web-Crawler?

Das Internet verändert und erweitert sich ständig. Da es nicht möglich ist, zu wissen, wie viele Webseiten es insgesamt im Internet gibt, beginnen Web-Crawler-Bots mit einem Seed, also einer Liste bekannter URLs. Sie crawlen zuerst die Webseiten unter diesen URLs. Während sie diese Webseiten crawlen, finden sie Hyperlinks zu anderen URLs und fügen diese der Liste der Seiten hinzu, die als nächstes gecrawlt werden sollen.

Bei der riesigen Anzahl von Webseiten im Internet, die für die Suche indiziert werden könnten, könnte dieser Prozess fast unendlich weitergehen. Ein Web-Crawler folgt jedoch bestimmten Richtlinien, die ihn wählerisch machen, welche Seiten er crawlen soll, in welcher Reihenfolge er sie crawlen soll und wie oft er sie erneut crawlen soll, um nach inhaltlichen Aktualisierungen zu suchen.

Die relative Wichtigkeit jeder Webseite: Die meisten Web-Crawler crawlen nicht das gesamte öffentlich zugängliche Internet und sind auch nicht dafür vorgesehen; stattdessen entscheiden sie, welche Seiten zuerst gecrawlt werden sollen, basierend auf der Anzahl anderer Seiten, die auf diese Seite verlinken, der Anzahl der Besucher, die diese Seite bekommt, und anderen Faktoren, die die Wahrscheinlichkeit angeben, dass die Seite wichtige Informationen enthält.

Die Idee ist, dass eine Webseite, die von vielen anderen Webseiten zitiert wird und viele Besucher bekommt, wahrscheinlich hochwertige, maßgebliche Informationen enthält, so dass es besonders wichtig ist, dass eine Suchmaschine sie indiziert hat – so wie eine Bibliothek sicherstellt, dass viele Kopien eines Buches, das von vielen Leuten ausgeliehen wird, vorhanden sind.

Besuchen von Webseiten: Inhalte im Web werden ständig aktualisiert, entfernt oder an neue Orte verschoben. Web-Crawler müssen in regelmäßigen Abständen Seiten erneut besuchen, um sicherzustellen, dass die neueste Version des Inhalts indiziert wird.

Robots.txt-Anforderungen: Web-Crawler entscheiden auch auf Basis des robots.txt-Protokolls (auch bekannt als Robots-Exclusion-Protokoll), welche Seiten gecrawlt werden sollen. Bevor sie eine Webseite crawlen, prüfen sie die robots.txt-Datei, die auf dem Webserver dieser Seite gehostet wird. Eine robots.txt-Datei ist eine Textdatei, die die Regeln für alle Bots festlegt, die auf die gehostete Website oder Anwendung zugreifen. Diese Regeln definieren, welche Seiten die Bots crawlen können und welchen Links sie folgen können. Als Beispiel können Sie sich die robots.txt-Datei von Cloudflare.com ansehen.

Alle diese Faktoren werden in den proprietären Algorithmen, die jede Suchmaschine in ihre Spider-Bots einbaut, unterschiedlich gewichtet. Web-Crawler von verschiedenen Suchmaschinen verhalten sich leicht unterschiedlich, obwohl das Endziel dasselbe ist: Inhalte von Webseiten herunterzuladen und zu indizieren.

Warum werden Web-Crawler „Spider“ genannt?

Das Internet, oder zumindest der Teil, auf den die meisten Benutzer zugreifen, ist auch als World Wide Web bekannt – tatsächlich kommt der „www“-Teil der meisten Website-URLs daher. Es war nur natürlich, Suchmaschinen-Bots als „Spider“ zu bezeichnen, denn sie krabbeln durch das ganze Web, so wie echte Spinnen auf Spinnennetzen krabbeln.

Sollten Web-Crawler-Bots immer auf Web-Eigenschaften zugreifen dürfen?

Das hängt von der Web-Eigenschaft ab, und es hängt von einer Reihe von Faktoren ab. Web-Crawler benötigen Server-Ressourcen, um Inhalte zu indizieren – sie stellen Anfragen, auf die der Server reagieren muss, genau wie ein Benutzer, der eine Website besucht oder andere Bots, die auf eine Website zugreifen. Abhängig von der Menge des Inhalts auf jeder Seite oder der Anzahl der Seiten auf der Website könnte es im Interesse des Website-Betreibers sein, die Suchindizierung nicht zu oft zuzulassen, da zu viel Indizierung den Server überfordern, die Bandbreitenkosten in die Höhe treiben könnte oder beides.

Außerdem möchten Entwickler oder Unternehmen vielleicht nicht, dass einige Webseiten auffindbar sind, wenn ein Benutzer nicht bereits einen Link zu der Seite erhalten hat (ohne die Seite hinter eine Paywall oder ein Login zu stellen). Ein Beispiel für einen solchen Fall für Unternehmen ist, wenn sie eine spezielle Landing Page für eine Marketing-Kampagne erstellen, aber nicht wollen, dass jemand, der nicht von der Kampagne angesprochen wird, auf die Seite zugreift. Auf diese Weise können sie das Messaging anpassen oder die Leistung der Seite genau messen. In solchen Fällen kann das Unternehmen die Landing Page mit einem „no index“-Tag versehen, so dass sie nicht in den Suchmaschinenergebnissen auftaucht. Sie können auch ein „disallow“-Tag in die Seite oder in die robots.txt-Datei einfügen, und Suchmaschinen-Spider werden die Seite überhaupt nicht crawlen.

Website-Besitzer möchten vielleicht auch aus einer Vielzahl anderer Gründe nicht, dass Web-Crawler-Bots einen Teil oder die gesamte Website crawlen. Zum Beispiel kann eine Website, die Nutzern die Möglichkeit bietet, innerhalb der Site zu suchen, die Suchergebnisseiten blockieren wollen, da diese für die meisten Nutzer nicht nützlich sind.

Was ist der Unterschied zwischen Web-Crawling und Web-Scraping?

Web-Scraping, Data-Scraping oder Content-Scraping ist, wenn ein Bot den Inhalt einer Website ohne Erlaubnis herunterlädt, oft mit der Absicht, diesen Inhalt für einen böswilligen Zweck zu verwenden.

Web-Scraping ist normalerweise viel gezielter als Web-Crawling. Web Scraper können nur hinter bestimmten Seiten oder bestimmten Websites her sein, während Web Crawler kontinuierlich Links folgen und Seiten crawlen.

Auch können Web Scraper Bots die Belastung, die sie auf Webserver ausüben, außer Acht lassen, während Web Crawler, insbesondere die von großen Suchmaschinen, die robots.txt-Datei befolgen und ihre Anfragen begrenzen, um den Webserver nicht zu überfordern.

Wie wirken sich Web-Crawler auf SEO aus?

SEO steht für Suchmaschinenoptimierung und ist die Disziplin, Inhalte für die Indizierung durch Suchmaschinen vorzubereiten, so dass eine Website in den Suchmaschinenergebnissen weiter oben angezeigt wird.

Wenn Spider-Bots eine Website nicht crawlen, kann sie nicht indiziert werden und wird nicht in den Suchergebnissen angezeigt. Aus diesem Grund ist es sehr wichtig, dass Web-Crawler-Bots nicht blockiert werden, wenn ein Website-Besitzer organischen Traffic aus den Suchergebnissen erhalten möchte.

Welche Web-Crawler-Bots sind im Internet aktiv?

Die Bots der großen Suchmaschinen heißen:

Google: Googlebot (eigentlich zwei Crawler, Googlebot Desktop und Googlebot Mobile, für Desktop- und mobile Suchen)
Bing: Bingbot
Yandex (russische Suchmaschine): Yandex Bot
Baidu (chinesische Suchmaschine): Baidu Spider

Es gibt auch viele weniger verbreitete Web-Crawler-Bots, von denen einige mit keiner Suchmaschine in Verbindung gebracht werden.

Warum ist es für das Bot-Management wichtig, das Web-Crawling zu berücksichtigen?

Schlechte Bots können eine Menge Schaden anrichten, von schlechten Benutzererfahrungen über Server-Abstürze bis hin zu Datendiebstahl. Beim Blockieren von schlechten Bots ist es jedoch wichtig, guten Bots, wie z. B. Web-Crawlern, weiterhin den Zugriff auf Web-Eigenschaften zu ermöglichen. Cloudflare Bot Management ermöglicht es guten Bots, weiterhin auf Websites zuzugreifen und gleichzeitig bösartigen Bot-Verkehr einzudämmen. Das Produkt unterhält eine automatisch aktualisierte Zulassen-Liste von guten Bots wie Web-Crawlern, um sicherzustellen, dass sie nicht blockiert werden.