Oficjalne wytyczne dotyczące crawl budget w przewodniku Google

Strony Internetowe Warszawa | http://mizzo.pl Strony Internetowe Warszawa | http://mizzo.pl

Na stronie Google Search Central opublikowano przewodnik po zarządzaniu budżetem indeksowania, czyli tak zwanym Crawl budget. Tekst jest dedykowany właścicielom dużych serwisów internetowych lub stron często aktualizowanych.

Jak szybko i skutecznie popsuć sobie SEO

Jak szybko i skutecznie popsuć sobie SEO

Wprowadzenie na stro...   czytaj więcej »

W związku z tym, poza przytoczeniem założeń zawartych w przewodniku, dopisałem podstawowe kwestie odnośnie Crawl budget. Zarówno przewodnik, jak i generalnie kwestie odnośnie limitów indeksowania stron przez roboty Google dotyczą głównie domen z dużą ilością unikalnych stron, które są aktualizowane stosunkowo często. Przewodnik określa stosunkowo w taki sposób:   

  • ponad milion unikalnych stron z treścią aktualizowaną raz w tygodniu
  • ponad 10 tys. Unikalnych stron z treścią aktualizowane codzienne

Powyższe ramy są założone w przybliżeniu.

Co to jest crawl budget? W tym crawl capacity limit i crawl demand

Aby strona znalazła się w wynikach wyszukiwania, musi być zaindeksowana przez daną wyszukiwarkę. To zadanie botów indeksujących, tzw. crawlerów które regularnie przeszukują sieć w celu znalezienia nowych lub zaktualizowanych treści. Przez „indeksowanie” mam na myśli nie tylko docieranie do nowopowstałych stron, ale również ponowne wizyty, aby zaktualizować bazę danych.

„Roboty analizują strony internetowe i otwierają zawarte w nich linki, p

Sposób poruszania się „crawlerów”, czyli przez linki po sieci, budzi skojarzenia z pająkami, stąd też tak są określane oraz wizualizowane. Tak samo jak Google inne wyszukiwarki takie jak Bing, Baidu czy Yandex również delegują swojego bota indeksującego. Lista wyszukiwarek i ich "crawlerów" poniżej:

Googlebot (Google), Bingbot (Bing) ,Baiduspider (Baidu), YandexBot (YandexBot), DuckDuckBot (DuckDuckGo), Slurp Bot (Yahoo)

Co to jest Crawl Budget?

Crawl Budget, czyli budżet indeksowania, to w uproszczeniu zasoby, które Google może skierować na indeksowanie danej strony (crawl limit) na tyle, ile jest to potrzebne w ich mniemaniu (crawl demand). Na to wszystko przeznacza określony z góry czas.

Crawl limit, czyli limit wydajności indeksowania odnosi się przede wszystkim do ograniczeń technicznych serwerów, zarówno po stronie Google jak i właścicieli stron.

Internet jest przeogromny, a googlebot nie jest wszechmocny, dlatego Google dedykuje "crawlowaniu" określone zasoby ze względów logistycznych (i zapewne ekonomicznych), a które może zmienić w dowolnym momencie (np. w wypadku awarii).

Druga strona medalu to kwestia wydajności serwera na którym trzymasz witrynę. Googlebot zdąży wykonać więcej pracy na szybko wczytującej się stronie, to logiczne. Wtedy tez zwiększa się limit, a gdy serwer jest awaryjny i wolny, limit się zmniejsza.

Ponadto boty indeksujące w zamyśle nie powinny doprowadzić do przeciążenia łączy serwera, wiec już na tych mniej wydajnych, np. na współdzielonych hostingach (shared hosting) limit jest niższy. Jeśli dochodzi do przeciążenia serwera i wiesz, że powodem jest googlebot, możesz samodzielnie ustawić limit w Google Search Console.

odobnie jak użytkownicy przeglądający treści w internecie. Przechodzą od linku do linku i przesyłają dane o stronach internetowych na serwery Google.”

 

Fakty i mity dotyczące Crawl budget

W ostatniej części przewodnika rozliczono się z powszechnymi opiniami odnośnie budżetu indeksowania.

Nieprawdziwe jest, że:

  • Skompresowane mapy witryny zwiększą limit indeksowania
  • Częściej aktualizowane strony lub przeciwnie, stare treści są lepiej oceniane przez Google
  • Parametry i generalnie skomplikowane adresy URL mogą stanowić problem
  • Mniejsze strony są rzadziej „crawlowane” bez względu na częstotliwość aktualizacji treści
  • Kwestie indeksowania stanowią czynnik rankingowy
  • Polecenie opóźnienia indeksowania (crawl delay) w robots.txt jest przetwarzane przez googlebota

Natomiast prawdziwe jest to, że:

  • Strony bliżej strony głównej są częściej indeksowane
  • Im szybciej wczytuje się strona, tym większy crawl limit oraz im więcej błędów serwera, tym mniejszy crawl limit
  • Alternatywne adresy URL (np. z parametrem hreflang) są uwzględnione w crawl budget
  • Użycie tag nofollow w linku sprawi, że boty indeksujące nie trafią do danej podstrony, aczkolwiek nie oznacza to, że nie dotrze do niej z innego linku niezawierającego dyrektywy nofollow

Pozostałe informacje

Znamy datę aktualizacji Page Experience Signals

Znamy datę aktualizacji Page Experience Signals

Aktualizacja "Page Experience Signals" - czym...   czytaj więcej »
December 2020 Core Update - pełne wdrożenie

December 2020 Core Update - pełne wdrożenie

Wczoraj, 16 grudnia 2020 r., Google oficjalni...   czytaj więcej »
Google potwierdza aktualizację algorytmu między 12 a 13 marca

Google potwierdza aktualizację algorytmu między 12 a 13 marca

Ostatnie kilka dni to spore zmiany w pozycjach str...   czytaj więcej »
Koniec jest bliski. Społecznościówka Google Plus do odstrzału

Koniec jest bliski. Społecznościówka Google Plus do odstrzału

Google Plus (Google+) miał być nawet czymś więcej ...   czytaj więcej »
Co tak naprawdę potrafi asystent Google?

Co tak naprawdę potrafi asystent Google?

John Mueller poruszył ostatnio kwestię prawdopodob...   czytaj więcej »
Zakończone testy BETA najnowszej wersji Search Console

Zakończone testy BETA najnowszej wersji Search Console

Zakończone testy BETA najnowszej wersji Search Con...   czytaj więcej »
Kary od Google | Bezpośrednie kopiowanie treści czy też maskowanie.

Kary od Google | Bezpośrednie kopiowanie treści czy też maskowanie.

Firma Google może nakładać sankcje na administrato...   czytaj więcej »
Twoja strona padła ofiarą hackerów? Google usunie ją z indeksu!

Twoja strona padła ofiarą hackerów? Google usunie ją z indeksu!

Na blogu Google pojawił się interesujący wpis doty...   czytaj więcej »
Aktualizacja algorytmu wyników lokalnych – „Possum Proximity Filter"

Aktualizacja algorytmu wyników lokalnych – „Possum Proximity Filter"

Possum to algorytm odpowiedzialny za lokalne wynik...   czytaj więcej »
Google aktualizuje wytyczne w zakresie oceny jakości

Google aktualizuje wytyczne w zakresie oceny jakości

Google po raz kolejny nas zaskakuje i wprowadza no...   czytaj więcej »

Artykuły

 

 

Projektowanie stron internetowych Warszawa 

- Najnowsze realizacje -

Usługi PPOŻ. | szkolenia BHP | usługi BHP
Bieg Banku BNP Paribas „Podaj zmianę
Ekoklimat - producent wózków sklepowych
Centrum Medyczne DECCLINIC
Mawawo - Depilacja Laserowa
Keemple - Technologia pracująca za Ciebie
PISKP - Polska Izba Stacji Kontroli Pojazdów
Wizytówka Tj-Gazy - Sprzedaż butli gazowych Rzeszów
Tj-Gazy - Sprzedaż butli gazowych Rzeszów
SPA - Klinika Urody Laura
Centrum medycyny Holistycznej | gd-med.pl
Apl Print - Drukarnia Online
Fitmuscle Shop - Sklep z Suplementami diety
Dynamic Motion Systems

Klienci

 

adamed        escada         podkarpackie logo            dom       grycan      champion-eu.com orange mitcar patti domtrybuna  stanica przygoda      Dr Mołas