Na stronie Google Search Central opublikowano przewodnik po zarządzaniu budżetem indeksowania, czyli tak zwanym Crawl budget. Tekst jest dedykowany właścicielom dużych serwisów internetowych lub stron często aktualizowanych. W związku z tym, poza przytoczeniem założeń zawartych w przewodniku, dopisałem podstawowe kwestie odnośnie Crawl budget.
Zarówno przewodnik, jak i generalnie kwestie odnośnie limitów indeksowania stron przez roboty Google dotyczą głównie domen z dużą ilością unikalnych stron, które są aktualizowane stosunkowo często. Przewodnik określa stosunkowo w taki sposób:
- ponad milion unikalnych stron z treścią aktualizowaną raz w tygodniu
- ponad 10 tys. Unikalnych stron z treścią aktualizowane codzienne
Powyższe ramy są założone w przybliżeniu.
Co to jest crawl budget? W tym crawl capacity limit i crawl demand
Aby strona znalazła się w wynikach wyszukiwania, musi być zaindeksowana przez daną wyszukiwarkę. To zadanie botów indeksujących, tzw. crawlerów które regularnie przeszukują sieć w celu znalezienia nowych lub zaktualizowanych treści. Przez „indeksowanie” mam na myśli nie tylko docieranie do nowopowstałych stron, ale również ponowne wizyty, aby zaktualizować bazę danych.
„Roboty analizują strony internetowe i otwierają zawarte w nich linki, p
Sposób poruszania się „crawlerów”, czyli przez linki po sieci, budzi skojarzenia z pająkami, stąd też tak są określane oraz wizualizowane. Tak samo jak Google inne wyszukiwarki takie jak Bing, Baidu czy Yandex również delegują swojego bota indeksującego. Lista wyszukiwarek i ich "crawlerów" poniżej:
Googlebot (Google), Bingbot (Bing) ,Baiduspider (Baidu), YandexBot (YandexBot), DuckDuckBot (DuckDuckGo), Slurp Bot (Yahoo)
Co to jest Crawl Budget?
Crawl Budget, czyli budżet indeksowania, to w uproszczeniu zasoby, które Google może skierować na indeksowanie danej strony (crawl limit) na tyle, ile jest to potrzebne w ich mniemaniu (crawl demand). Na to wszystko przeznacza określony z góry czas.
Crawl limit, czyli limit wydajności indeksowania odnosi się przede wszystkim do ograniczeń technicznych serwerów, zarówno po stronie Google jak i właścicieli stron.
Internet jest przeogromny, a googlebot nie jest wszechmocny, dlatego Google dedykuje "crawlowaniu" określone zasoby ze względów logistycznych (i zapewne ekonomicznych), a które może zmienić w dowolnym momencie (np. w wypadku awarii).
Druga strona medalu to kwestia wydajności serwera na którym trzymasz witrynę. Googlebot zdąży wykonać więcej pracy na szybko wczytującej się stronie, to logiczne. Wtedy tez zwiększa się limit, a gdy serwer jest awaryjny i wolny, limit się zmniejsza.
Ponadto boty indeksujące w zamyśle nie powinny doprowadzić do przeciążenia łączy serwera, wiec już na tych mniej wydajnych, np. na współdzielonych hostingach (shared hosting) limit jest niższy. Jeśli dochodzi do przeciążenia serwera i wiesz, że powodem jest googlebot, możesz samodzielnie ustawić limit w Google Search Console.
odobnie jak użytkownicy przeglądający treści w internecie. Przechodzą od linku do linku i przesyłają dane o stronach internetowych na serwery Google.”
Chcesz zbudować widoczność w internecie?
Fakty i mity dotyczące Crawl budget
W ostatniej części przewodnika rozliczono się z powszechnymi opiniami odnośnie budżetu indeksowania.
Nieprawdziwe jest, że:
- Skompresowane mapy witryny zwiększą limit indeksowania
- Częściej aktualizowane strony lub przeciwnie, stare treści są lepiej oceniane przez Google
- Parametry i generalnie skomplikowane adresy URL mogą stanowić problem
- Mniejsze strony są rzadziej „crawlowane” bez względu na częstotliwość aktualizacji treści
- Kwestie indeksowania stanowią czynnik rankingowy
- Polecenie opóźnienia indeksowania (crawl delay) w robots.txt jest przetwarzane przez googlebota
Natomiast prawdziwe jest to, że:
- Strony bliżej strony głównej są częściej indeksowane
- Im szybciej wczytuje się strona, tym większy crawl limit oraz im więcej błędów serwera, tym mniejszy crawl limit
- Alternatywne adresy URL (np. z parametrem hreflang) są uwzględnione w crawl budget
- Użycie tag nofollow w linku sprawi, że boty indeksujące nie trafią do danej podstrony, aczkolwiek nie oznacza to, że nie dotrze do niej z innego linku niezawierającego dyrektywy nofollow