Warum jeder SEO-Audit mit einer Crawl-Budget-Analyse beginnen sollte

Bei komplexen Webseiten sind die Ansatzpunkte zur Suchmaschinenoptimierung sehr vielfältig. Wo sollte ein SEO-Audit also beginnen? Wie so oft geht es bei der Optimierung um ein Problem knapper Ressourcen. Die knappe Ressource in in unserem Fall ist das Zeitbudget des Googlebots, das sogenannte „Crawl-Budget„. Deshalb sollte nach unserer Meinung ein jeder SEO-Audit mit der Analyse des Verhaltens des Googlebots in den letzten Wochen und Monaten beginnen.

Wie starte ich die Crawl-Budget-Analyse?

Dazu werden die Log-Files vom FTP-Server benötigt. Je nach Anzahl der täglichen Website-Besucher und URLs, können diese Log-Files auch größer als 1GB sein. Üblicherweise sollten die Daten des letzten Monats aber zügig heruntergeladen und weiterverarbeitet werden können. Zur Analyse der Daten wird ein Log-File-Analyser (z.B. Screaming Frog Log File Analyser) benötigt. In dieser Software lassen sich die Log-Files importieren und auswerten.

Welche Erkenntnisse liefert die Crawl-Budget-Analyse?

Generell möchte man erreichen, dass Google die wichtigen Seiten, die weit oben in den Suchergebnissen erscheinen sollen, so oft wie möglich crawlt. Es gilt also Stellen ausfindig zu machen, an denen der Googlebot sein Crawl-Budget „verschwendet“.

  • Im Zeitverlauf wird deutlich, dass die Häufigkeit der Besuche des GoogleBots stetig abnimmt. Das ist ein Alarmsignal und bedeutet, dass Google die Seite tendenziell als weniger wichtig einordnet
  • Wenn bspw. Produkt-URLs öfter gecrawlt werden als übergeordnete Overview-Seiten, dann hat der GoogleBot die gewollte Priorisierung (noch) nicht richtig verstanden. Ein entsprechendes Internal Linking Konzept kann dann Abhilfe schaffen.
  • Tote URLs mit 404-Fehlern (Seite nicht mehr auffindbar) können ausfindig gemacht und per Redirect beseitigt werden
  • Man erhält einen Überblick über alle gesetzten Redirects und ggf. fehlerhafte Redirect-Codes (z.B. 302 statt 301)
  • Unter Umständen sollten Seiten, die sehr oft gecrawlt werden, aber keine Relevanz für die Indexierung in den Suchergebnissen haben, vom Crawlen ausgeschlossen werden
  • Aufdecken leerer Verzeichnisse und URL-Ebenen, die vom Crawling ausgeschlossen werden sollten.
  • Werden wichtige Landingpages, die für Top-Rankings optimiert wurden, überhaupt oft genug gecrawlt?
  • sind alle Skripte und Dateien, die zusätzlich zu den eigentlichen Content Seiten gecrawlt werden wirklich unerlässlich oder kann der Code entsprechend ausgedünnt werden um Crawl-Budget zu sparen?

Welche Instrumente haben wir um das Crawling-Verhalten zu steuern?

  1. Bestimmte Verzeichnisse und Pfade per robots.txt ausschließen. Die Funktion der robots.txt kann übrigens in der Google Search Console überprüft werden.
  2. Ausschließen einzelner Seiten mit dem Meta-Robots „noIndex“ tag. Für größere Seitenstrukturen bedarf es eines strukturierten Index/noIndex-Konzeptes
  3. Internal-Linking Konzept – Seiten die höher gesichtet werden sollen, müssen intern häufiger verlinkt werden.
  4. Vary-Header „last-modified“ und Server Code 304 (kein Update) – Die Seite wird dann zwar kurz „angecrawlt“, der Bot verbraucht aber nicht soviel Zeitbudget, da er nicht die gesamte Seite herunterlädt, sondern nach dem Auslesen des Headers weiterzieht.
  5. Backend des CMS aufräumen und veraltete Seiten löschen
  6. Redirects richtig setzen (301 – Permanently Moved)
  7. Code säubern und minimieren

Alles in allem ist diese Analyse tatsächlich ein sehr geeigneter Startpunkt für einen SEO-Audit, da Sie sehr viele Ansatzpunkte aufdeckt und Input für fast alle bekannten technischen und strukturellen Themen der Suchmaschinenoptimierung liefert.