Sie sind hier: edv-beratung-thomas.de / ... / Suchmaschinenoptimierung / doppelte Inhalte vermeiden


Suchmaschinen-Optimierung Schritt für Schritt: Praxis-Tipps (nicht nur) für Einsteiger

Suchmaschinenoptimierung - doppelte Inhalte (duplicate content, DC) vermeiden:

Kein Surfer ist erfreut, wenn er gleiche Inhalte im Internet doppelt und mehrfach vorgesetzt bekommt. Die Suchmaschinen sind deswegen, aber auch aus Platzgründen, bestrebt, doppelte Inhalte aus ihrem Datenbestand zu löschen oder gar nicht erst in ihren Index aufzunehmen. Vermeiden Sie also doppelte Inhalte (duplicate content, abgekürzt DC), wenn Sie darauf Wert legen, daß alle Ihre Unterseiten von Google erfaßt werden.

Doppelter Inhalt (duplicate content) kann, absichtlich oder unabsichtlich, aus Bequemlichkeit oder Unwissen, auf vielfache Weise "erzeugt" werden. Im Folgenden finden Sie eine (unvollständige) Aufstellung der häufigsten Ursachen und Tipps, wie Sie doppelte Inhalte vermeiden.

1. Fehler: Erreichbarkeit Ihres Angebots unter mehreren Adressen:

Ihr Angebot ist sowohl unter http://www.mein-projekt.de als auch unter http://mein-projekt.de erreichbar (keine kanonische URL).

Tipp: Standarddomain festlegen:

Entscheiden Sie sich für eine Version: entweder für "mit www" oder für "ohne www", und legen Sie über Ihre Datei .htaccess Ihre Standarddomain fest, wenn Ihr Webhoster das Modul mod_rewrite zur Verfügung stellt.

Wenn Sie sich für die Version "mit www" entschieden haben, müssen Sie dort folgende Zeilen eintragen:
RewriteEngine on
RewriteBase /
RewriteCond %{HTTP_HOST} !^www\.mein-projekt\.de$
RewriteRule ^(.*)$ http://www.mein-projekt.de/$1 [L,R=301]
Damit wird sichergestellt, daß die Version "ohne www" von den Suchmaschinen nicht erfaßt wird. Und wenn irgendjemand aus Versehen oder bösem Willen http://mein-projekt.de verlinkt hat, wird weitergeleitet zu http://www.mein-projekt.de.

Umgekehrt, also wenn Sie die Version "ohne www" bevorzugen, geht's in der Datei .htaccess mit diesen Zeilen:
RewriteEngine on
RewriteBase /
RewriteCond %{HTTP_HOST} !^mein-projekt\.de$
RewriteRule ^(.*)$ http://mein-projekt.de/$1 [R=301,L]
Die Version "mit www" wird dann von Google & Co nicht erfaßt, und erforderlichenfalls werden Besucher, die im Browser "mit www" eingeben, zu http://mein-projekt.de weitergeleitet.

Wenn sichergestellt ist, daß eine Website unter nur einer eindeutigen Adresse erreichbar ist, bezeichnet man diese Adresse als kanonische URL.

Zweitbeste Lösung, etwa wenn Ihr Webhoster kein mod_rewrite - Modul anbietet: Richten Sie sich ein Google-Konto ein, melden in den Google Webmastertools (seit Mai 2015 umbenannt in "Search Console") Ihre Website an, weisen nach, daß die angegebene Domain Ihnen gehört (wie das alles geht, ist unter Sitemap im XML-Format generieren und bei Google einreichen beschrieben) und legen dann unter "Website-Konfiguration / Einstellungen / Bevorzugte Domain" fest, was Ihnen lieber ist: die Version "mit www" oder "ohne www".

2. Fehler: als Startseite wird die index.html oder index.php verlinkt:

Damit ist die Startseite sowohl mit der Domain als auch mit der Adresse der Startdatei (index.html oder index.php) erreichbar (keine kanonische URL).

Tipp 1: als Startseite nur die Domain verlinken:

Verwenden Sie für Ihre projekt-internen Startseiten-Links nur die Domain und achten Sie darauf, daß auch bei eingehenden Links von fremden Websites die Domain und nicht die Startdatei verlinkt wird.

Tipp 2: von der Startseite zur Domain weiterleiten:

Um sicherzustellen, daß eingehende Links von außen auf die Startdatei keinen Schaden anrichten, leiten Sie in Ihrer Datei .htaccess von der Startdatei auf die Domain weiter (auch hierfür ist das mod_rewrite - Modul auf Ihrem Server erforderlich). Weitere Einzelheiten hierzu finden Sie in Jörg Kruses Web-Lexikon unter kanonische URL.

Suchen Sie einen guten Webhoster, der schon im günstigsten Tarif PHP und .htaccess - Unterstützung mit mod_rewrite - Modul anbietet? Tipp: das Paket "Visitenkarte" (1,99 Euro/Monat) von PS-Webhosting.

3. Fehler: session-IDs erzeugen je Session eine neue URL:

Content Management Systeme (CMS) und Shop-Systeme arbeiten häufig mit session-IDs. Hierdurch wird auch bei den Besuchen von Suchmaschinen-robots jedesmal eine neue URL erzeugt.

Tipp: session-IDs so weit wie möglich vermeiden:

Vermeiden Sie session-IDs so weit wie möglich. Bei Online-Shops sind Sessions erst dann nötig, wenn der Besucher tatsächlich etwas kaufen will. Ein Suchmaschinen-robot will aber nichts kaufen und braucht deswegen gar keine session-ID. Fragen Sie also den User_agent ab und starten Sie die Session nur dann, wenn der Besucher kein Suchmaschinen-robot ist:

Abfage eines User_agent (im Beispiel Google):
<?php
if (!eregi("Googlebot", $_SERVER("HTTP_USER_AGENT"))) start_session();
?>


Abfrage mehrerer User_agent (im Beispiel Google, Yahoo, MSN/Live.com und Exalead):
<?php
if (eregi("Googlebot",$_SERVER[HTTP_USER_AGENT]));
else if (eregi("slurp",$_SERVER[HTTP_USER_AGENT]));
else if (eregi("MSNbot",$_SERVER[HTTP_USER_AGENT]));
else if (eregi("ExaBot",$_SERVER[HTTP_USER_AGENT]));
else start_session();
?>

4. Fehler: Druck-Versionen von Suchmaschinen erfassen lassen:

Viele Websites bieten von jeder Unterseite neben der Bildschirm-Version eine Druck-Version mit gleichem Inhalt (jedenfalls mit gleichem Text) an und lassen auch die Druck-Versionen von Suchmaschinen erfassen.

Tipp: Druck-Versionen für Suchmaschinen-robots sperren:

Legen Sie alle Druck-Versionen in einem gesonderten Verzeichnis ab und sperren Sie dieses Verzeichnis über die Datei robots.txt für Suchmaschinen-robots.

5. Fehler: seitenlanges Zitieren aus Wikipedia:

Viele Freizeit-Webmaster und sogar Profi-Webentwickler "schmücken" ihre Website mit seitenlangen Zitaten aus Wikipedia oder anderen Internet-Lexika. Abgesehen davon, daß solche Netzauftritte niemanden interessieren und daher überflüssig wie ein Kropf sind, wird hiermit doppelter Inhalt erzeugt: solche Unterseiten werden von Suchmaschinen kaum in ihren Datenbestand aufgenommen, und es droht auch die Gefahr, daß die vollständige Website aus dem Index verbannt wird.

Tipp: verfassen Sie selbst einzigartigen Text ...

Verfassen Sie selbst einzigartigen Text, der den Besuch Ihrer Website für andere interessant macht. Wenn Sie aus Wikipedia zitieren wollen, beschränken Sie sich auf einen Satz und fügen einen Link zum betreffenden Wikipedia-Artikel hinzu.

Und wenn Sie Wikipedia keinen Link gönnen, weil es Sie ärgert, daß Wikipedia ihre Links zu anderen Seiten mit dem Attribut rel="nofollow" entwertet, oder weil es Sie stört, daß Wikipedia bei "Ihrem" Suchbegriff in der Google-Trefferliste vor Ihnen steht: Es steht Ihnen doch frei, selbst mit rel="nofollow" auf Wikipedia zu linken.

6. Fehler: bei Artikelverzeichnissen gleichen Inhalt wie auf eigener Website einreichen:

Wenn Sie die Möglichkeit nutzen, für Artikelverzeichnisse Beiträge zu schreiben, um im Gegenzug themenbezogene Links auf Ihre Website zu erhalten, widerstehen Sie der Versuchung, aus Bequemlichkeit den gleichen Text wie auf Ihrem eigenen Netzauftritt zu verwenden.

Tipp: für Artikelverzeichnisse immer einzigartigen Inhalt schreiben:

Suchen Sie sich ein aktuelles Thema raus, das zu Ihrer Website Themenbezug hat, und schreiben Sie etwas zu diesem aktuellen Thema. Das geht leichter von der Hand und ist schneller erledigt als der krampfhafte Versuch, einen schon vorhandenen Text "nicht wiedererkennbar" umzuformulieren.

7. Fehler: doppelter Inhalt durch geänderte Dateinamen:

Tipp siehe: Dateinamen ändern? duplicate content vermeiden

8. Fehler: doppelter Inhalt durch gleiche Einträge im Titel:

Tipp siehe: im title-Element doppelten Inhalt vermeiden

9. Fehler: doppelter Inhalt durch gleiche Einträge im Meta-Element description:

Tipp siehe: im Meta-Element description doppelten Inhalt vermeiden

10. Fehler: in Katalogen gleiche Texte wie im Titel und Meta-Element "description" einer angemeldeten Website verwenden:

Tipp für Anmeldende:

Verwenden Sie für Ihre Anmeldungen bei Webkatalogen und Artikeldiensten keinesfalls Texte, die auf Ihrer Website wortwörtlich als Text, als Überschrift, als Titel oder als Inhalt des Meta-Elements description vorkommen. Google bestraft Webkataloge und Artikeldienste, die doppelten Inhalt aufweisen, neuerdings mit PR-Entzug. Wenn Sie auf solche Art duplicate content erzeugen, tun Sie weder sich selbst noch dem Katalogbetreiber einen Gefallen.

Tipp für Katalog-Betreiber:

Lesen Sie keinesfalls Titel oder Meta-Element description automatisiert aus den angemeldeten Seiten aus, um sie als Text für Katalog-Einträge zu verwenden. Dadurch könnten Ihre (Kategorie- oder Detail-) Seiten PR verlieren. Ersetzen Sie dieses automatisierte Verfahren durch händische Angabe von Titel und Beschreibung durch den Anmelder. Ändern Sie doppelt vorkommende Titel und Beschreibungen in Ihren Bestandsdaten, so daß sie keinen DC mehr darstellen.

11. Content-Dieben das Handwerk legen:

Wer fremde Inhalte kopiert und auf der eigenen Website veröffentlicht, handelt kriminell. Darüber hinaus erzeugt er damit doppelte Inhalte (was zwar doppelt gemein, aber kein Straftatbestand ist). Leider fehlt Google ein programmierter Gerechtigkeitssinn, so daß gelegentlich nicht der Content-Dieb, sondern der Beklaute abgestraft wird, indem seine Seite aus dem Index gelöscht wird. Ungeschoren dürfte davonkommen, wer die "stärkere" Website hat.

Tipp: nachforschen, Beweise sichern, klagen ...

Wenn Ihnen also auffällt, daß eine Seite von Ihnen plötzlich nicht mehr im Google-Index ist, forschen Sie bei Google nach und suchen nach typischen Formulierungen, die nur auf Ihrer Seite vorkommen dürften. Wenn Sie "fündig" geworden sind, sichern Sie Beweise und übergeben die Sache einem Rechtsanwalt, der in einer solchen Sache schon mal erfolgreich tätig war. Das Urheberrecht ist bei uns in Deutschland stark geschützt. Das Löschen Ihrer Inhalte vom Netzauftritt des Diebes ist natürlich keine Garantie, daß Ihre Seite statt des Diebes Seite in den Google-Index aufgenommen wird.

... oder bei Google einen "DMCA-Antrag" einreichen:

Eine weitere Möglichkeit ist, bei Google einen DMCA-Antrag einzureichen. Wie Sie vorgehen müssen, um einen solchen Antrag zu stellen, wird auf der Google-Seite (auf Englisch) beschrieben. Das "Digital Millennium Copyright Act" ist ein nicht unumstrittenes amerikanisches Gesetz. Wenn Sie diesen Weg beschreiten, sollte Ihr Urheberrecht über jeden Zweifel erhaben sein. Denn eines können Sie über einen "DMCA-Antrag" nicht: auf Googles Kosten einen Rechtsstreit vor amerikanischen Gerichten führen. Für die entstehenden Kosten müssen im Zweifelsfall Sie aufkommen.

12. link rel="canonical": Ersatz-Lösung bei technischen Unzulänglichkeiten:

Wenn das mod_rewrite-Modul nicht verfügbar ist, oder wenn Sie überhaupt keine .htaccess verwenden können, kommt als Notlösung in manchen Fällen das Element link rel="canonical" in Betracht, um den Suchmaschinen mitzuteilen, welche Adresse die kanonische URL sein soll. Auf diesen Standard haben sich die Suchmaschinen-Betreiber Google, Yahoo und Bing geeinigt.

Wenn etwa eine Seite mit gleichem Inhalt unter drei Adressen erreichbar ist, und Sie eine bestimmte Adresse als kanonische URL festlegen wollen, dann fügen Sie in den head das Element link rel="canonical" ein und geben dort Ihre bevorzugte Adresse an:
<link rel="canonical" href="http://www.mein-projekt.de/">

Damit wären Sie aber auf die Gnade von Google & Co angewiesen. Denn eine technisch saubere Lösung ist das nicht.

   zur Übersicht: Suchmaschinenoptimierung Schritt für Schritt

   zurück zu: robots.txt: Verzeichnisse oder Seiten für Robots sperren

   weiter zu: Mehrere Domains, gleicher Webspace: DC-Problem lösen

Zur Startseite: Webdesign Erlangen - EDV-Beratung Thomas
Stand: 08.08.2015 nach oben ©2007-2018 Gösta Thomas