Das Google PDF-Dokumente durchforstet und indexiert ist nichts Neues. Doch wie funktioniert das Ganze und worauf muss man achten? Wie verhindere ich Duplicate Content und was bringen Links aus PDF-Dokumenten? Google hat gestern in einem interessanten Artikel die meistgestellten Fragen beantwortet. Grund genug, uns einige Antworten einmal näher anzuschauen.

PDF-Optimierung

Indexierung von PDF-Dateien

Generell ist es so, dass Google den Text aus PDF-Dokumenten extrahieren kann.  Wichtig ist nur, dass die Datei nicht verschlüsselt oder mit einem Kennwort versehen wurde. Viel interessanter ist jedoch, dass auch sogenannte OCR Algorithmen zur Erkennung des Textes in Bildern genutzt werden – dies gilt auch für die Google Bildersuche und wurde 2007 als Patent angemeldet. Somit wird jedes Bilddokument, welches Text beinhaltet, auch für den Crawler „lesbar“. Man kann jedoch davon ausgehen, dass reiner Text höher gewertet wird, als Inhalte, die ausschließlich durch den OCR Algorithmus extrahiert werden.

Fotos und Grafiken

Über Fotos oder Grafiken in PDF-Dokumenten äußert sich Google nur soweit, dass diese noch nicht in den Suchergebnissen gelangen. Das wird sich jedoch, zumindest meiner Einschätzung nach, in Zukunft ändern.

Links

Links, die aus PDF-Dokumenten stammen, werden mit ganz normalen HTML-Links gleich gesetzt. Dort macht Google keinerlei Unterschiede. Derzeit sei es nicht möglich, links in PDF-Dateien auf noFollow zu setzen, so Google. Somit ist jeder Link „doFollow“.

Ich kann daher nicht oft genug betonen, dass man die Möglichkeiten zum Linkbuilding mit PDF-Dokumenten nicht vernachlässigen sollte. Hier ist eindeutig Kreativität gefragt.

Kann eine PDF gut ranken?

Dies hat Google in seinem Artikel ganz klar mit „Ja“ beantwortet und deckt sich auch mit dem, was ich in einigen wenigen Tests feststellen konnte.  Es kommt jedoch darauf an, ob eine PDF bei dem gesuchten Thema Sinn macht. So werden in den Suchergebnissen für wissenschaftliche Artikel tendenziell eher PDF Dokumente erscheinen.

Duplicate Content

Mithilfe der sogenannten Canonical Tags kann Duplicate Content vermieden werden. Dies sollte man unbedingt nutzen. Gerade Webseiten, die Ihren Inhalt zusätzlich zur Webseite nochmals als PDF anbieten möchten, sei der Canonical Tag wärmstens Empfohlen.

Titel im Suchergebnis beeinflussen

Um in den Suchergebnissen eine Überschrift anzeigen zu können, bedient sich Google an den Metadaten und den Linktexten des Dokumentes.

Also – keine Müdigkeit vorschützen! Es gibt immer etwas zu tun 😉

2 Antworten zu “PDF Dokumente im Google Index”

    • Hi Reimund,
      Canonical Tags sind Meta-Daten einer Website die einen Verweis zum Original einer Seite zeigen. Als Beispiel könntest du in einem Online Shop einen Artikel mehreren Katgorien zuordnen. Die erste Zuordnung wäre dann das Original des Artikels. Die anderen URL´s, unter denen das Produkt erreichbar ist, verweisen dann auf das Original.

      Beispiel:
      seite.de/produkt-original.html (canonical tag = produkt-original.html)
      seite.de/produkt-kategorie1.html (canonical tag = produkt-original.html)
      seite.de/produkt-liste2.html (canonical tag = produkt-original.html)
      seite.de/produkt-landingage-adwords.html (canonical tag = produkt-original.html)

      Die Suchmaschine weiß so, dass nur eine Seite im Index gewertet werden soll (produkt-original.html). Alle anderen Seiten sind „Dublikate“.

Zum Seitenanfang