PDF Dokumente im Google Index
das macht sie besonders
Dass Google PDF-Dokumente durchforstet und indexiert ist nichts Neues. Doch wie funktioniert das Ganze und worauf muss man achten? Wie verhindere ich Duplicate Content und was bringen Links aus PDF-Dokumenten? Google hat gestern in einem interessanten Artikel die meistgestellten Fragen beantwortet. Grund genug, uns einige Antworten einmal näher anzuschauen.
Indexierung von PDF-Dateien
Generell ist es so, dass Google den Text aus PDF-Dokumenten extrahieren kann. Wichtig ist nur, dass die Datei nicht verschlüsselt oder mit einem Kennwort versehen wurde. Viel interessanter ist jedoch, dass auch sogenannte OCR Algorithmen zur Erkennung des Textes in Bildern genutzt werden – dies gilt auch für die Google Bildersuche und wurde 2007 als Patent angemeldet. Somit wird jedes Bilddokument, welches Text beinhaltet, auch für den Crawler „lesbar“. Man kann jedoch davon ausgehen, dass reiner Text höher gewertet wird, als Inhalte, die ausschließlich durch den OCR Algorithmus extrahiert werden.
Fotos und Grafiken
Über Fotos oder Grafiken in PDF-Dokumenten äußert sich Google nur soweit, dass diese noch nicht in den Suchergebnissen gelangen. Das wird sich jedoch, zumindest meiner Einschätzung nach, in Zukunft ändern.
Links
Links, die aus PDF-Dokumenten stammen, werden mit ganz normalen HTML-Links gleich gesetzt. Dort macht Google keinerlei Unterschiede. Derzeit sei es nicht möglich, links in PDF-Dateien auf noFollow zu setzen, so Google. Somit ist jeder Link „doFollow“. Durch ihre SEO-Relevanz können Verlinkungen in PDF-Dokumenten dazu beitragen, den Traffic zu steigern.
Ich kann daher nicht oft genug betonen, dass man die Möglichkeiten zum Linkbuilding mit PDF-Dokumenten nicht vernachlässigen sollte. Hier ist eindeutig Kreativität gefragt.
Kann eine PDF gut ranken?
Dies hat Google in seinem Artikel ganz klar mit „Ja“ beantwortet und deckt sich auch mit dem, was ich in einigen wenigen Tests feststellen konnte. Es kommt jedoch darauf an, ob eine PDF bei dem gesuchten Thema Sinn macht. So werden in den Suchergebnissen für wissenschaftliche Artikel tendenziell eher PDF Dokumente erscheinen.
Duplicate Content
Mithilfe der sogenannten Canonical Tags kann Duplicate Content vermieden werden. Dies sollte man unbedingt nutzen. Gerade Webseiten, die Ihren Inhalt zusätzlich zur Webseite nochmals als PDF anbieten möchten, sei der Canonical Tag wärmstens Empfohlen.
Titel im Suchergebnis beeinflussen
Um in den Suchergebnissen eine Überschrift anzeigen zu können, bedient sich Google an den Metadaten und den Linktexten des Dokumentes.
Also – keine Müdigkeit vorschützen! Es gibt immer etwas zu tun ;-)
Mehr zum Thema PDF Dokumente?
Neben diesem Artikel
sind weitere spannende Themen zur Suchmaschinenoptimierung für Sie interessant.
Sie haben genug gelesen? Dann lernen Sie uns als SEO-Agentur kennen.
Bilder-SEO bei PDF-Dokumenten
PDF Dokumente bleiben weiterhin ein mächtiges SEO-Werkzeug. Nun kann auch die Bildersuche mit suchmaschinenoptimierten PDFs bedient werden. Seit 2008 ist das Thema PDF-SEO ein Basisbaustein, den...
Jetzt lesenSo erstellen Sie Ihre ideale Buyer Persona
Mithilfe einer Buyer Persona lässt sich Ihr idealer Kunde präzise ansprechen. Doch was genau ist eine Buyer Persona und was zeichnet sie aus? Welche Informationen gehören zu einer Buyer Persona?...
Jetzt lesenWhite Hat SEO vs. Black Hat SEO – die wichtigsten...
Das Prinzip der Täuschung hat inzwischen auch die digitale Welt erreicht und findet sich im sogenannten Black Hat SEO wieder. In diesem Beitrag erfahren Sie, was es mit Black Hat SEO auf sich hat...
Jetzt lesenLust auf mehr SEO Wissen?
Der sixclicks Blog liefert spannende Tipps und Insights zur Suchmaschinenoptimierung. Sorgen Sie für mehr Reichweite, Anfragen und Wachstum in Ihrem Unternehmen. Monatliche Updates kommen direkt in Ihr Postfach.