Blockierte Ressourcen

Nur Website-Inhalte, die von Suchmaschinen-Robots wie Googles Googlebot gecrawlt werden, gelangen in den Index und damit in die Suchergebnisse der jeweiligen Suchmaschine. Bevor die Robots mit der Indexierung einer Website beginnen, suchen sie in deren Stammverzeichnis nach einer Textdatei mit der Bezeichnung „robots.txt“. Mit dieser wird festgelegt, welche Bereiche einer Seite durchsucht werden sollen und welche nicht. Die robots.txt bietet somit die Gelegenheit, die Indexierung bestimmter Inhalte zu verhindern.

Aufbau einer robots.txt-Datei

Generell umfasst eine robots.txt-Datei Angaben zu den auszuschließenden Suchmaschinen-Robots („User Agent“) sowie Unterseiten und Verzeichnissen („Disallow“). Um den Robots mitzuteilen, wo die für die Indexierung wichtige XML-Sitemap zu finden ist, besteht zudem die Möglichkeit, diese zu verlinken („Sitemap“).

User-agent: *
Disallow:
Sitemap: http://doamin.de/sitemap.xml

Da „Disallow“ in diesem Beispiel leer bleibt, ist die entsprechende Domain bei diesem Eintrag für sämtliche Suchmaschinen-Robots komplett durchsuchbar. Der Platzhalter „*“ steht für alle Suchmaschinen und darf nur für den Eintrag „User Agent“ genutzt werden. Um die ganze Seite für alle User-Agents zu sperren, setzt man hinter „Disallow“ einen Schrägstrich: Disallow: /

Einzelne Inhalte von der Indexierung ausschließen

Der eigentliche Sinn der robots.txt ist es jedoch, bestimmte User-Agents bzw. einzelne Unterseiten und Verzeichnisse von der Indexierung auszuschließen. Beispiel:

User-agent: Googlebot

Disallow: /unterseite.html

Disallow: /verzeichnis/

Auf diese Weise haben Website-Betreiber die Möglichkeit, ausgewählte Inhalte gezielt aus dem Index einzelner Suchmaschinen auszuschließen. Dies bietet sich beispielsweise für Seiten wie die AGBs oder das Impressum an, die nicht unbedingt in den Suchergebnissen erscheinen müssen. Zudem kann die robots.txt-Datei dabei helfen, Duplicate Content zu vermeiden, indem Seiten mit doppelten Inhalten von der Indexierung ausgeschlossen werden.