Co to jest robot indeksujący? | Jak działają pająki internetowe

Co to jest robot indeksujący?

Bot indeksujący, pająk lub bot wyszukiwarki pobiera i indeksuje treści z całego Internetu. Celem takiego bota jest nauczenie się, o czym jest (prawie) każda strona w sieci, tak aby informacje mogły być odzyskane, kiedy są potrzebne. Są one nazywane „crawlerami”, ponieważ crawling to termin techniczny oznaczający automatyczny dostęp do strony internetowej i uzyskiwanie danych za pomocą programu komputerowego.

Boty te są prawie zawsze obsługiwane przez wyszukiwarki. Dzięki zastosowaniu algorytmu wyszukiwania do danych zebranych przez roboty indeksujące, wyszukiwarki mogą dostarczać odpowiednie linki w odpowiedzi na zapytania użytkowników, generując listę stron internetowych, które pojawiają się po wpisaniu przez użytkownika zapytania do Google lub Bing (lub innej wyszukiwarki).

Bot indeksujący jest jak ktoś, kto przegląda wszystkie książki w nieuporządkowanej bibliotece i tworzy katalog kartkowy, aby każdy, kto odwiedza bibliotekę, mógł szybko i łatwo znaleźć potrzebne informacje. Aby pomóc skategoryzować i posortować książki w bibliotece według tematu, organizator będzie czytał tytuł, streszczenie i niektóre z wewnętrznych tekstów każdej książki, aby dowiedzieć się, o czym jest.

Web crawler bot organizujący informacje

Jednakże, w przeciwieństwie do biblioteki, Internet nie składa się z fizycznych stosów książek, a to sprawia, że trudno jest powiedzieć, czy wszystkie niezbędne informacje zostały odpowiednio zindeksowane, czy też ogromne ich ilości są pomijane. Aby spróbować znaleźć wszystkie istotne informacje, które Internet ma do zaoferowania, bot indeksujący zaczyna od pewnego zestawu znanych stron internetowych, a następnie śledzi hiperłącza z tych stron do innych stron, śledzi hiperłącza z tych innych stron do dodatkowych stron i tak dalej.

Nie wiadomo, jak duża część publicznie dostępnego Internetu jest faktycznie indeksowana przez boty wyszukiwarek. Niektóre źródła szacują, że tylko 40-70% Internetu jest indeksowane na potrzeby wyszukiwania – a to są miliardy stron internetowych.

Co to jest indeksowanie wyszukiwania?

Indeksowanie wyszukiwania jest jak tworzenie bibliotecznego katalogu kart dla Internetu, tak aby wyszukiwarka wiedziała, gdzie w Internecie pobrać informacje, gdy dana osoba ich szuka. Można je również porównać do indeksu z tyłu książki, który zawiera listę wszystkich miejsc w książce, w których pojawia się dany temat lub fraza.

Indeksowanie skupia się głównie na tekście, który pojawia się na stronie, oraz na metadanych* o stronie, których użytkownicy nie widzą. Kiedy większość wyszukiwarek indeksuje stronę, dodaje do indeksu wszystkie słowa znajdujące się na stronie – z wyjątkiem słów takich jak „a”, „an” i „the” w przypadku Google. Kiedy użytkownicy szukają tych słów, wyszukiwarka przegląda indeks wszystkich stron, na których te słowa się pojawiają i wybiera najbardziej odpowiednie z nich.

*W kontekście indeksowania wyszukiwarek, metadane to dane, które mówią wyszukiwarkom, o czym jest dana strona. Często meta tytuł i meta opis są tym, co pojawi się na stronach wyników wyszukiwarek, w przeciwieństwie do treści strony widocznej dla użytkowników.

Jak działają roboty indeksujące?

Internet ciągle się zmienia i rozszerza. Ponieważ nie jest możliwe, aby wiedzieć, ile jest wszystkich stron internetowych w Internecie, boty indeksujące zaczynają od ziarna, czyli listy znanych adresów URL. Najpierw przeszukują strony internetowe pod tymi adresami. W trakcie indeksowania tych stron znajdą one hiperłącza do innych adresów URL i dodadzą je do listy stron do indeksowania w następnej kolejności.

Zważywszy na ogromną liczbę stron internetowych w Internecie, które mogą być indeksowane do wyszukiwania, proces ten może trwać niemal w nieskończoność. Jednakże, roboty indeksujące stosują się do pewnych zasad, które sprawiają, że są bardziej selektywne w kwestii tego, które strony indeksować, w jakiej kolejności je indeksować i jak często powinny je indeksować ponownie, aby sprawdzić aktualizacje treści.

Względna ważność każdej strony: Większość robotów indeksujących nie przeszukuje całego publicznie dostępnego Internetu i nie ma takiego zamiaru; zamiast tego decydują one, które strony indeksować w pierwszej kolejności na podstawie liczby innych stron, które zawierają odnośniki do tej strony, liczby odwiedzających tę stronę oraz innych czynników, które oznaczają prawdopodobieństwo, że strona zawiera ważne informacje.

Pomysł jest taki, że strona, która jest cytowana przez wiele innych stron i jest odwiedzana przez wielu użytkowników, prawdopodobnie zawiera wysokiej jakości, wiarygodne informacje, więc jest szczególnie ważne, aby wyszukiwarka ją zaindeksowała – tak jak biblioteka może się upewnić, że posiada wiele kopii książki, która jest sprawdzana przez wielu ludzi.

Odwiedzanie stron internetowych: Treść w sieci jest stale aktualizowana, usuwana lub przenoszona w nowe miejsca. Web crawlery będą musiały okresowo przeglądać strony, aby upewnić się, że najnowsza wersja treści jest indeksowana.

Wymagania rotots.txt: Crawlery internetowe decydują również, które strony mają być indeksowane w oparciu o protokół robots.txt (znany również jako protokół wykluczenia robotów). Przed indeksowaniem strony internetowej sprawdzają plik robots.txt znajdujący się na serwerze danej strony. Plik robots.txt jest plikiem tekstowym, który określa reguły dla wszystkich botów uzyskujących dostęp do hostowanej witryny lub aplikacji. Reguły te określają, które strony mogą być indeksowane przez boty oraz jakie linki mogą one śledzić. Jako przykład, sprawdź plik robots.txt Cloudflare.com.

Wszystkie te czynniki są ważone inaczej w ramach zastrzeżonych algorytmów, które każda wyszukiwarka wbudowuje w swoje boty. Pająki z różnych wyszukiwarek będą zachowywać się nieco inaczej, choć ich cel jest taki sam: pobieranie i indeksowanie treści ze stron internetowych.

Dlaczego pająki nazywane są 'pająkami'?

Internet, a przynajmniej jego część, do której ma dostęp większość użytkowników, znany jest również jako World Wide Web – w rzeczywistości to właśnie stąd pochodzi część „www” w adresach URL większości stron internetowych. Naturalnym było nazywanie botów wyszukiwarek „pająkami”, ponieważ pełzają one po całej sieci, tak jak prawdziwe pająki pełzają po pajęczynach.

Czy boty indeksujące zawsze powinny mieć dostęp do własności sieci?

To zależy od własności sieci i od wielu czynników. Boty indeksujące wymagają zasobów serwera w celu indeksowania treści – wykonują żądania, na które serwer musi odpowiedzieć, podobnie jak użytkownik odwiedzający stronę lub inne boty wchodzące na stronę. W zależności od ilości treści na każdej stronie lub liczby stron w witrynie, w najlepszym interesie operatora witryny może leżeć, aby nie zezwalać na indeksowanie wyszukiwania zbyt często, ponieważ zbyt częste indeksowanie może przeciążyć serwer, podnieść koszty przepustowości lub spowodować jedno i drugie.

Również deweloperzy lub firmy mogą nie chcieć, aby niektóre strony internetowe były możliwe do odkrycia, chyba że użytkownik otrzymał już link do strony (bez umieszczania strony za płatną ścianą lub logowaniem). Jednym z przykładów takiego przypadku dla przedsiębiorstw jest utworzenie dedykowanej strony docelowej dla kampanii marketingowej, ale nie chcą, aby ktokolwiek, do kogo kampania nie jest skierowana, wszedł na tę stronę. W ten sposób można dostosować przekaz lub precyzyjnie zmierzyć wydajność strony. W takich przypadkach przedsiębiorstwo może dodać do strony docelowej znacznik „no index”, dzięki czemu nie będzie ona wyświetlana w wynikach wyszukiwania. Mogą również dodać znacznik „disallow” na stronie lub w pliku robots.txt, a pająki wyszukiwarek nie będą jej w ogóle indeksować.

Właściciele stron internetowych mogą nie chcieć, aby boty indeksujące przeszukiwały część lub całość ich witryn z wielu innych powodów. Na przykład, witryna, która oferuje użytkownikom możliwość wyszukiwania w obrębie witryny, może chcieć zablokować strony z wynikami wyszukiwania, ponieważ nie są one przydatne dla większości użytkowników. Inne automatycznie generowane strony, które są pomocne tylko dla jednego użytkownika lub kilku określonych użytkowników również powinny być blokowane.

Jaka jest różnica między web crawlingiem a web scrapingiem?

Web scraping, data scraping, lub content scraping to sytuacja, w której bot pobiera zawartość strony internetowej bez pozwolenia, często z zamiarem wykorzystania tej zawartości w złośliwym celu.

Web scraping jest zazwyczaj znacznie bardziej ukierunkowany niż web crawling. Web scraperzy mogą poszukiwać konkretnych stron lub tylko konkretnych witryn, podczas gdy web crawlery będą podążać za linkami i indeksować strony w sposób ciągły.

Booty web scraperów mogą nie brać pod uwagę obciążenia, jakie nakładają na serwery WWW, podczas gdy web crawlery, zwłaszcza te z głównych wyszukiwarek, będą przestrzegać pliku robots.txt i ograniczać swoje żądania, aby nie obciążać serwera WWW.

Jak roboty indeksujące wpływają na SEO?

SEO to skrót od Search Engine Optimization (optymalizacja pod kątem wyszukiwarek) i jest to dyscyplina polegająca na przygotowaniu treści do indeksowania przez wyszukiwarki, tak aby strona pojawiała się wyżej w wynikach wyszukiwania.

Jeśli roboty indeksujące nie przeszukują strony, nie może ona zostać zaindeksowana i nie pojawi się w wynikach wyszukiwania. Z tego powodu, jeśli właściciel strony internetowej chce uzyskać organiczny ruch z wyników wyszukiwania, bardzo ważne jest, aby nie blokować botów indeksujących.

Jakie boty indeksujące są aktywne w Internecie?

Boty z głównych wyszukiwarek są nazywane:

  • Google: Googlebot (właściwie dwa crawlery, Googlebot Desktop i Googlebot Mobile, dla wyszukiwań desktopowych i mobilnych)
  • Bing: Bingbot
  • Yandex (rosyjska wyszukiwarka): Yandex Bot
  • Baidu (chińska wyszukiwarka): Baidu Spider

Istnieje również wiele mniej popularnych botów indeksujących, niektóre z nich nie są powiązane z żadną wyszukiwarką.

Dlaczego ważne jest, aby zarządzanie botami uwzględniało indeksowanie sieci?

Złe boty mogą wyrządzić wiele szkód, od złych doświadczeń użytkowników, przez awarie serwerów, po kradzież danych. Jednakże, blokując złe boty, ważne jest, aby nadal pozwalać dobrym botom, takim jak roboty indeksujące, na dostęp do właściwości sieci. Cloudflare Bot Management pozwala dobrym botom na dostęp do stron internetowych, jednocześnie ograniczając ruch złośliwych botów. Produkt utrzymuje automatycznie aktualizowaną listę dozwolonych dobrych botów, takich jak roboty indeksujące, aby zapewnić, że nie zostaną one zablokowane.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *