powrot do bloga

Czym jest crawl budget ?

Czym jest crawl budget  ?

Czym jest Crawl budget



Crawl budget to budżet indeksowania strony. Prościej mówiąc – pojęcie to określa liczbę podstron, które robot Google może zaindeksować podczas pojedynczej wizyty. Można powiedzieć, że to poziom zainteresowania robotów Google Twoją witryną, który określany jest na podstawie możliwości indeksacji strony. To z kolei wpływa na regularność wyświetlania w wynikach wyszukiwania.


W tym artykule omówimy pojęcia związane z limitem budżetu indeksacji (crawl rate limit) oraz zapotrzebowaniem na indeksację (crawl demand). Odpowiemy na pytanie jak zoptymalizować stronę by zadbać o budżet indeksowania co w przypadku większych stron może mieć wpływ na jej widoczność i lepsze zasięgi.

Spis treści :

  1. czym jest crawl rate limit
  2. czym jest crawl demand
  3. dlaczego warto zadbać o crawl budget ?
  4. jak optymalizować stronę pod budżet indeksowania ?
  5. czy crawl budget jest czynnikiem rankowania ?

Jak robot znajduje strony ?

W tym momencie w sieci znajduje się ponad 1,5 miliarda stron internetowych. W jaki sposób roboty docierają właśnie do Twojej witryny? Proces ten odbywa się w kilku etapach.

  • Skanowanie – roboty przeszukują sieć, aby wykryć wszystkie dane. Najczęściej skanowanie rozpoczyna się od chętnie odwiedzanych miejsc, aby zakończyć na tych najmniej popularnych.
  • Indeksowanie – roboty rozpoznają tematykę strony. Na tym etapie sprawdzają, czy treści są unikalne, czy autor zamieścił duplikaty. Ponadto zawartość jest grupowana na podstawie ważności.
  • Wyświetlanie wyników – na podstawie zapytań użytkowników wyszukiwarka wyświetla zaindeksowane treści.
  • Renderowanie – można powiedzieć, że to proces „widzenia” (nie czytania) treści przez Google. Element ten również ma ważne znaczenie dla crawl budget.  

Jak działa crawling

Googleboty najpierw poddają Twoją stronę crawlingowi, aby później móc zaindeksować treści. Dzięki temu zamieszczona zawartość znajduje się w indeksie Google. Aby jednak wyszukiwarka mogła znaleźć wszystkie należące do Ciebie treści, przydatne będą sitemapy, które znacznie ułatwią pracę botom, a Tobie zapewnią oczekiwany ruch.


Pamiętaj jednak, że proces crawlingu odbywa się bardzo szybko na stronach ze stosunkowo niewielką liczbą podstron. Zupełnie inaczej jest w przypadku rozbudowanych witryn. Wówczas należy ustalić priorytety i zastanowić się, które treści poddać crawlingowi. Jak to zrobić? Dowiesz się już za chwilę!





Czym jest crawl rate limit ?


Roboty Google mają określone zasoby do wykorzystania podczas codziennego skanowania stron internetowych. Googlebot stara się indeksować optymalną ilość podstron, jednak by nie doszło do sytuacji w której strona internetowa jest skanowana przez roboty zbyt intensywnie wprowadzony został parametr crawl limit.

Limit indeksowania

Crawl Rate limit to liczba nawiązywanych jednocześnie połączeń, które mogą wystąpić podczas crawlowania witryny. Google stara się indeksować optymalną liczbę stron, więc dopasowuje ten element do wydajności strony bądź serwera.

Limit ma na celu zbilansować proces indeksacji i powstrzymać Google przed nadmiernym indeksowaniem strony które wpływa na przeciążenia serweru na którym znajduje się witryna. Tym samym można powiedzieć że dzięki rate limit nie dojdzie do sytuacji w której podczas crawlowania strony przez robota będzie ona działać wolniej dla użytkownika.


W ten sposób proces indeksacji jest zbalansowany, co obniża ryzyko przeciążenia serwera, na którym znajduje się witryna. Celem ustanowienia crawl limitu jest optymalizacja szybkości działania strony.



Od czego zależy crawl rate limit ?


Parametr ten zależ przede wszystkim od szybkości strony. W przypadku kiedy strona jest wolna lub czas odpowiedzi serwera długi znacznie wydłuża to proces indeksowania strony. W przypadku kiedy nasza strona ładuje się szybko, posiada mapę witryny, linkowania wewnętrzne prowadzące do kolejnych podstron istnieje duża szansa że googlebot zaindeksuje większość podstron podczas jednej wizyty na stronie. Dzięki tym elementom robot może zaindeksować wszystkie podstrony już podczas jednej wizyty.



Gdzie i jak sprawdzić szybkość swojej strony ?


Szybkość strony internetowej sprawdzić możemy programami online:

https://developers.google.com/speed/pagespeed/insights/

https://gtmetrix.com


Dadzą nam pełny obraz konstrukcji kodu html, czasu ładowania strony oraz odpowiedzi serwera, który nie raz może niemiło zaskoczyć gdyż wartość ta może wynieść ponad 1 sekundę.



Gdzie ustawić rate limit ?

Parametr można ustawić w Google Search Console jednak nie ma gwarancji poprawienia indeksacji.


Czym jest crawl demand ?

Parametr Crawl Demand określa częstotliwość indeksacji. Ta będzie wyższa w przypadku popularnych oraz częściej aktualizowanych stron. Prościej mówiąc – witryny chętnie odwiedzane przez użytkowników, są atrakcyjne również dla robota, który dokonuje indeksacji.

Od czego zależy crawl demand ?

Można powiedzieć, że Google „widzi”, jak wiele dzieje się wokół Twojej witryny. Warto więc zadbać o jej popularność. Kolejnym czynnikiem jest częste aktualizowanie treści. Roboty chętniej dotrą do świeżej zawartości, aby wyświetlić użytkownikom przydatne informacje. Pamiętaj jednak, że strategia dodawania treści na stronę musi być przemyślana.

Pamiętaj

Częste dodawania niskiej wartości contentu wcale nie przyczyni się do wzrostu Crawl budgetu. Wręcz przeciwnie.


Jak sprawdzić stopień indeksacji naszej strony w Google ?

komenda sit:domena.pl sprawdzająca indeksację strony w Google


Aby dowiedzieć się w jakim stopniu strona jest zaindeksowana w Google wystarczy wpisać parametr site:nazwadomeny.pl. Po zatwierdzeniu pojawią nam się wyniki wyszukiwania w obrębie naszej domeny czyli strona główna oraz wszystkie podstrony, które ‘widzi’ Google.


Warto przejrzeć ręcznie wyniki by zobaczyć czy nie są zaindeksowane podstrony, które nie powinny znaleźć się w indeksie np: podstrony filtrowania, rejestracji, logowania, robocze podstrony, czy inne podstrony z ‘doklejonymi’ znakami duplikujące nasze główne docelowe podstrony. Warto wtedy wypisać takie podstrony i zgłosić do usunięcia.


Usuwanie podstron z indeksu


Usuwanie niechcianych podstron z indeksu można wykonać poprzez ustawienie na nich odpowiednich przekierowań :


Przekierowanie 301

To przekierowanie przeniesie użytkownika na podstronę na którą chcemy by docelowo trafił z błędnej podstrony


Przekierowanie 410

To przekierowanie da informację google by usuną podstronę z wyników wyszukiwania.


Dlaczego warto zadbać o crawl budget ?


Prosta struktura adresów URL, brak zagnieżdżeń podstron powyżej 3 poziomu, a co za tym idzie – szybka indeksacja, sprawią, że będziesz mógł cieszyć się funkcjonalnością strony oraz możliwością jej dalszej rozbudowy przez długie lata.


Jeżeli jednak Google nie zaindeksuje Twojej strony, nie pojawi się ona w wynikach wyszukiwania, a konsekwencje mogą być wręcz katastrofalne. Niewłaściwe zarządzanie dużym e-commerce z olbrzymią liczbą podstron może sprawić, że Google po prostu do nich nie dotrze. To negatywnie przełoży się na konwersję.


Musisz więc zwracać uwagę, jak wiele podstron dodajesz oraz ile przekierowań pochłania crawl budget witryny. Pamiętaj, że nawet z pozoru niewielka strona może obejmować tysiące linków.  



Jak optymalizować stronę pod budżet indeksowania ?


Przy optymalizacji crawl budget niezbędna będzie analiza w Google Search Console ( zobacz poradnik Google Search Console ). Wystarczy odwiedzić zakładkę Stan, aby uzyskać informację, czy strona nie zawiera błędów. Warto również sprawdzić, czy nie pojawiają się problemy z mapą strony, duplikaty podstron, podstrony z przekierowaniami czy strony alternatywne, które zawierają prawidłowy tag strony kanonicznej.

Po otworzeniu raportu, GSC pokaże nam potencjalne problemy na stronie orazi jakie statusy podstron zwracane w panelu. Da nam to informację o potencjalnych problemach w witrynie.


statystyki indeksowania strony w GSC


Na co zwrócić uwagę :


  • duża liczba błędów 5xx - to wskazówka że występują problemy z obsługą żądań po stronie serweru,
  • problemy z mapą witryny,
  • strony alternatywne zawierające prawidłowy tag strony kanonicznej,
  • duplikaty podstron,
  • podstrony których nie znaleziono czyli podstorny 404,
  • podstrony zawierające przekierowania,

błędy statusów podstron


Warto zadbać o prędkość strony oraz poprawną budowę tj. architekturę informacji gdyż wpłynie to pozytywnie na proces jej indeksacji oraz w dalszej kolejności bezproblemową rozbudowę o kolejne podstrony.

Aby poprawnie optymalizować stronę należy zwrócić uwagę na kilka aspektów technicznych strony. Zobacz jak wykonać optymalizację strony

Statystyki aktywności robota google

Jeśli chcesz zapoznać się z danymi, dotyczącymi aktywności robota, z pomocą przyjdzie Google Search Console. Sekcja Statystyki Indeksowania obejmuje kilka przydatnych elementów, dzięki którym określisz crawl rate.


  • Liczba stron zaindeksowanych dziennie – określa, ile adresów URL w domenie zostało odwiedzonych przez robota. Nagłe spadki na wykresie mogą oznaczać, że witryna zmaga się z problemami, które należy jak najszybciej wykryć i wyeliminować. Stały monitoring tego parametru będzie na pewno dobrą praktyką.


  • Liczba kilobajtów danych pobieranych dziennie – wykres przedstawia, jak wiele danych pobrał robot podczas wizyty. Element ten wiąże się z ilością danych na Twojej witrynie. Wysokie wartości nie powinny Cię jednak niepokoić, jeśli page speed utrzymuje się na optymalnym poziomie.  


  • Czas spędzony na pobieraniu strony – ten parametr powinien być zawsze utrzymany na jak najniższym poziomie. Pamiętaj, że 51% użytkowników sklepów internetowych porzuca koszyki, jeśli witryna ładuje się zbyt długo.


Stała obserwacja powyższych wskaźników pozwoli Ci zareagować na wiele problemów związanych z crawl budgetem.


Jak zadbać o optymalizację budżetu indeksowania ?


Duplikacja treści oraz krótkie w treść podstrony


W przypadku powtarzania tej samej treści w obrębie kilku podstron lub jeżeli ilość treści powtarzanej jest znaczna może dojść do sytuacji osłabienia naszej strony pod względem jakości. Google lubi unikatowy content, który wyczerpuje temat.

Podstrony krótkie w treść generują tzw: ‘thin content’, który daje informację że podstrona nie wyczerpuje danej tematyki a przez to nie należy jej premiować w wynikach wyszukiwania. Z kolei podstrony zawierające powtarzające się treści są uznawane za tożsame między sobą i może dojść do rywalizacji pomiędzy nimi o pojawienie się w wynikach wyszukiwania lub obniżenie jakości całej witryny.


Błędy 404

Pojawiają się w momencie, w którym serwer zwraca kod 200 na nieistniejącej stronie zamiast kodu 404. Może to znacznie zmniejszyć crawl budget, choć problem ten jest łatwy w monitorowaniu. Wystarczy odnaleźć zakładkę błędy indeksowania w Google Search Console


Nawigacja fasetowa

Podstrony generowane poprzez dobór parametrów z np. bocznych filtrów sidebaru na sklepach internetowych mogą generować bardzo dużą liczbę adresów url tworząc tym samym duplikaty w obrębie witryny i znacznie obciążając crawlowanie strony. Jeżeli te podstrony nie generują ruchu oraz stanowią większe ilości warto wykluczyć je z indeksowania poprzez wprowadzenie na tego typu podstronach parametru ‘noindex’

 

Linkowanie wewnętrzne


Pomocną techniką wspomagającą indeksowanie strony jest linkowanie podstron pomiędzy sobą za pomocą linków w treści. Linkowanie wewnętrzne pomaga także w pozycjonowaniu podstron w wyszukiwarce. Umieszczając w treści artykułu naturalnie frazę kluczową w formie linku prowadzącego do podstrony zamiast typowego ‘zobacz’ lub ‘więcej’ wpływamy pozytywnie na budowanie i przekazanie mocy z jednej podstrony na drugą na określone słowa kluczowe wskazując google sugerowane słowo kluczowe które nabiera wartości.


Wykluczenie indeksowania podstrony

W przypadku podstron zdiagnozowanych jako niepotrzebne do indeksacji warto rozważyć użycie znacznika meta ‘noindex’. To sygnał dla Google by nie indeksował tych podstron. Za pomocą tego parametru możemy zaoszczędzić budżet crawlowania na wartościowe podstrony.


Dodaj mapę strony do Google Search Console

Pomóc robotowi odnaleźć wszystkie podstrony możemy zgłaszając w panelu Google mapę witryny z listą wszystkich podstron dostępnych do indeksacji.

Uważaj na kanibalizację treści

Stosowanie tych samych fraz kluczowych oraz zbliżony konkrekst podstron dla dwóch lub więcej podstron na pewno nie pomoże Ci w pozycjonowaniu, a wręcz sprawi że Google będzie miał problem z pokazaniem podstron na określone frazy kluczowe.


Unikaj ataków hakerskich

Ataki hackerskie również obniżają szansę na zaindeksowanie. Warto więc dbać o bezpieczeństwo witryny. Przeczytaj jak zabezpieczyć wordpress

Logi serwera

Analizując logi możesz sprawdzić, jak poruszał się robot po Twojej stronie. Najlepiej analizować ostatni miesiąc, choć dla dużych serwisów idealny zakres to dwa tygodnie.

Sprawdź robots.txt

Warto sprawdzić, które z blokowanych adresów są crawlowane oraz usunąć niepotrzebne reguły.

Sprawdź, ile adresów wewnętrznych nie jest kanonicznych

Tag kanoniczny dziś bardzo często jest pomijany przez wyszukiwarkę.



Czy crawling wpływa na pozycjonowanie ?


Wyższy współczynnik indeksacji strony jest bardzo istotny jednak nie stanowi czynnika rankingowego, więc nie decyduje o pozycjonowaniu. Pamiętaj jednak, że crawling ma duży wpływ na poprawę kondycji strony oraz maksymalizację budżetu na strony wartościowe. Narzędziem, które pozwoli określić, czy pozycjonowanie przebiega prawidłowo będzie audyt SEO.


Czy parametr nofollow ma wpływ na crawl budget ?

Link oznaczony jako nofollow nie jest brany pod uwagę przy indeksacji przez Gooogle. To również dzięki temu parametrowi możemy sterować przepływem mocy po stronie i odpowiednio przekazywać moc seo poprzez link do konkretnych podstron. Alternatywnym parametrem jest link oznaczony jako dofollow przekazujący moc indeksacji i moc seo.

Jak mogę zadbać o crawl budget ?


Opisane metody optymalizacji pomogą Ci znacznie zwiększyć crawl budget witryny. Czynników tych jest dosyć dużo, a znaczenie może mieć każdy, nawet najmniejszy detal. Absolutną podstawą jest eliminowanie błędów oraz unikanie duplikacji. Szczegółowa analiza w Google Search Console, a także płatne narzędzia będą niezwykle przydatne.


Czy robot indeksuje wszystkie moje podstrony ?


Sprawdzisz to, wpisując w okno wyszukiwań site:nazwa domeny. Wtedy uzyskasz informację o przybliżonej liczbie zaindeksowanych adresów. Dzięki temu możesz ocenić, czy liczba ta odpowiada faktycznej liczbie podstron.


Na co zwrócić uwagę przy tworzeniu site mapy ?


Przede wszystkim pamiętaj, aby adresy w sitemapie zwracały kod odpowiedzi 200. Ponadto unikaj adrsów URL, które zawierają meta robots z treścią „noindex”, stron paginacji oraz stron, które blokowane są plikiem robots.txt. Nieprawidłowa implementacja mapy czy jej błędna zawartość może wpłynąć na zmniejszenie crawl budgetu.


Czy parametr nofollow wpływa na crawl budget ?


Robot indeksujący nie bierze pod uwagę linków oznaczonych jako nofollow. Dzięki temu możesz ustalić priorytety oraz przekazać moc SEO do innych podstron.


Jak mogę sprawdzić szybkość strony ?


W tym celu wystarczy rzucić okiem na kilka narzędzi online. Możesz to sprawdzić np. na https://developers.google.com/speed/pagespeed/insights/ czy https://gtmetrix.com.



Podsumowanie


Trudno nie zauważyć, jak istotny jest crawl budget witryny. Tymczasem wielu niedoświadczonych webmasterów czy właścicieli sklepów internetowych pomija ten aspekt. Dzięki właściwej analizie danych oraz optymalizacji zatroszczysz się o crawl rate limit oraz crawl demand, aby wyprzedzić konkurencję. Nie ulega więc wątpliwości, że elementy te mają znaczący wpływ na ruch, a co za tym idzie – na konwersję.