Crawling

Der Vorgang, mit dem Suchmaschinen wie Google Website-Inhalte erfassen, wird als „Crawling“ bezeichnet. Bei Google kommt dazu der Googlebot zum Einsatz, der bei seinem Weg durchs Internet Links folgt, und die so zu einzelnen Websites aggregierten Daten an den Google-Index sendet. Verschiedene Probleme auf einer Internetseite können dazu führen, dass der Googlebot diese gar nicht oder nur teilweise crawlen kann. Unter dem Menüpunkt „Crawling“ bietet die Google Search Console unter anderem eine Funktion, mit der sich solche Crawling-Fehler eruieren lassen. Auch detaillierte Crawling-Statistiken lassen sich in der Search Console abrufen.

Crawling-Fehler

Bei den Crawling-Fehlern unterscheidet Google zwischen Fehlern, die die gesamte Website (Website-Fehler) oder nur einzelne URLs (URL-Fehler) betreffen. Website-Fehler führen dazu, dass dem Googlebot der Zugriff auf die gesamte Seite verweigert wurde. Drei Ursachen zieht Google für ein solches Szenario in Betracht:

  • DNS-Fehler
    Dieser Fehler zeigt an, dass der Googlebot nicht mit dem DNS-Server kommunizieren kann.
  • Serverfehler
    In diesem Fall ist der Googlebot gezwungen, seine Anfrage abzubrechen, beispielsweise weil der Server zu langsam reagiert.
  • txt-Fehler
    Bevor der Googlebot mit dem Crawling einer Seite beginnt, greift er zunächst auf deren robots.txt-Datei zu. Ist dieser Zugriff nicht möglich, verschiebt Google das Crawling.

Die URL-Fehler beziehen sich auf einzelne Unterseiten einer Domain auf Desktop-PCs, Smartphones oder Feature-Phones. Mögliche Fehlerarten sind hier:

  • Nicht gefunden
    Der Statuscode 404 (nicht gefunden) wird dann zurückgegeben, wenn ein Nutzer bzw. der Googlebot versucht, auf eine Seite zuzugreifen, die nicht (mehr) existiert.
  • Soft 404-Fehler
    Dieser Fehler tritt auf, wenn der Server eine Seite für eine URL zurückgibt, die auf der Website gar nicht vorhanden ist.
  • Nicht gefolgt
    Von diesem Fehler sind URLs betroffen, deren Pfaden der Googlebot nicht vollständig folgen konnte.
  • Zugriff verweigert
    Auf Webseiten, die eine Anmeldung oder Authenfizierung benötigen, kann der Googlebot ebenso wenig zugreifen wie auf Seiten, bei denen ihm die robots.txt den Zugriff verweigert.
  • Serverfehler
    Ein Serverfehler wird angezeigt, wenn der Googlebot eine Serveranfrage aufgrund einer Zeitüberschreitung abbrechen musste.
Crawling issues
URL-Fehler-Diagramm in der Search Console

Unterhalb des Diagramms, in dem die Entwicklung der Anzahl der einzelnen URL-Fehler über einen Zeitraum von 90 Tagen dargestellt wird, findet man eine Übersicht der ersten 1.000 URLs, die von dem ausgewählten Fehler betroffen sind. Zudem wird dort angegeben, wann dieser Fehler erkannt wurde. Durch einen Klick auf eine der URLs erhält man nähere Informationen.

crawling statistikenCrawling-Statistiken

Die Crawling-Statistiken in der Search Console geben Aufschluss darüber, wie viele Seiten Google auf der untersuchten Domain innerhalb der letzten 90 Tage maximal, durchschnittlich und minimal pro Tag gecrawlt hat, wie viele Kilobytes dabei herunter geladen wurden und wie lange das Herunterladen einer Seite dauerte. Schwankungen sind dabei normal. Nur bei extremen Einbrüchen sollte man den Ursachen auf den Grund gehen.