Mit dem robots.txt-Tester ermitteln, auf welche URLs Google zurückgreifen kann und auf welche nicht.

Mit Hilfe einer robots.txt-Datei wird festgelegt, welche Bereiche einer Domain von den Suchmaschinen-Robots (User-Agents) durchsucht werden sollen und welche nicht. Bevor die Crawler mit der Indexierung einer Website beginnen, suchen sie im Stammverzeichnis der Domain zunächst nach einer Textdatei mit der Bezeichnung „robots.txt“. Diese kann mit einem Texteditor oder diversen kostenlosen Tools erstellt werden.

User-agent: *
Disallow: /

Durch einen solchen Eintrag im Stammverzeichnis wird die entsprechende Domain komplett für sämtliche Suchmaschinen-Robots gesperrt. Man kann jedoch auch nur bestimmte User-Agents aussperren bzw. einzelne Unterseiten und Verzeichnisse von der Indexierung ausschließen. Beispiel:

User-agent: Googlebot
User-agent: bingbot
Disallow: /agb
Disallow: /kontakt
Disallow: /impressum

Auf diese Weise haben Website-Betreiber die Möglichkeit, ausgewählte Inhalte gezielt aus dem Suchmaschinen-Index auszuschließen. Dies kann zum Beispiel sinnvoll sein, um Duplicate Content zu vermeiden oder wenn sich eine Seite noch im Aufbau befindet.

robots.txt-Tester deckt Fehler auf

Es kann allerdings auch vorkommen, dass die Crawler der Suchmaschinen versehentlich von wichtigen Seiten ausgesperrt werden bzw. aufgrund einer fehlerhaften robots.txt-Datei die falschen Inhalte crawlen. Um solchen Fehlern auf die Schliche zu kommen, hat Google seine Search Console jüngst um den robots.txt-Tester erweitert, der auf dem Dashboard unter „Crawling“ abrufbar ist.

robots.txt-Tester in den Google Webmaster-Tools
robots.txt-Tester in den Google Webmaster-Tools

Das neue Tool erleichtert es, auch bei Webseiten mit einer riesigen robots.txt-Datei den Überblick zu behalten. Diesen kann man bei einer Vielzahl blockierter einzelner URLs nämlich schnell verlieren, so dass einem selbst nicht mehr bewusst ist, welche Seiten in den Index gelangen und welche nicht.

Einzelne URLs testen

Der robots.txt-Tester von Google liefert die neueste Version der robots.txt-Datei auf einen Blick. Auch ältere Versionen sind abrufbar. Einzelne URLs lassen sich dahingehend testen, ob sie von einem der Google-Web-Crawler durchsucht werden können oder nicht. Der Test lässt sich sowohl für den für die Websuche zuständigen Googlebot als auch für Googlebot-News, Googlebot-Image, Googlebot-Video, Googlebot-Mobile, Mediapartners-Google sowie Adsbot-Google durchführen. Diese lassen sich über ein Drop-down-Menü neben dem Eingabefeld für die URL auswählen. Nach einem Klick auf „Testen“ bekommt man angezeigt, ob die jeweilige URL das Crawling zulässt oder blockiert. Liegt eine Blockierung vor, wird die entsprechende Zeile rot hervorgehoben.

robots.txt-Tester zeigt eine blockierte URL an
robots.txt-Tester zeigt eine blockierte URL an

Etwaige Änderungen lassen sich dann direkt in dem Tool testen, indem man die markierte Zeile bearbeitet oder komplett löscht. Damit die Änderungen wirksam werden, müssen sie anschließend nur noch in die robots.txt-Datei auf dem eigenen Server kopiert werden.

Zum Seitenanfang