Tag Archiv: Duplicate Content

Web-Shops und das Problem mit Duplicate Content

Produktbeschreibungen, Herstellerinformationen, Preis, vielleicht noch Kundenbewertungen – viel mehr Content ist bei den meisten Web-Shops nicht zu finden. Die meisten Texte werden vom Hersteller geliefert und sind auf vielen Shops zu lesen. Nicht selten umfasst ein Web-Shop tausende von Produkt-Seiten, die fast identisch sind mit Produktseiten anderer Shops. Wenn dann Google mit der Abstrafung von doppeltem Content droht, dann wissen viele Shop-Betreiber nicht, was sie mit ihrem doppeltem Content tun sollen.

Zum Problem, wie man mit solchen weit verbreitetem Content auf vielen Seiten umgehen kann, hat vor kurzem Rand Fishkin einige interessante Aspekte angerissen:

  • Der beste Weg ist, eigenen zusätzlichen unique content dazu stellen, um sich von den Inhalten der Konkurrenz abzuheben
  • In technischer Hinsicht schlägt er vor, doppelten Content in I-Frames einzubinden (ist aber, wenn man die Kommentare liest, ziemlich umstritten)
  • Ein wenig schwammig bleibt sein Hinweis, die Content Schnippsel aus anderen Quellen so zusammenstellen, zu visualisieren und zu überarbeiten, dass sie dem User einen Mehrwert bieten.  Reicht da eine eigene Zusammenfassung in drei Sätzen? Und wie erkennt Google, dass eine Grafik einen Mehrwert bietet?

Einen greibaren Lösungsvorschlag bietet Rand hier nicht wirklich. Natürlich wünscht sich Google eine Mehrwert für den User (auf diesen Aspekt ist Rand in seinem Video über “unique content” bereits deutlich eingegangen), aber manche Shop-Betreiber müssen einfach rechnen, wie viel Zeit und Geld sie in die Überarbeitung ihrer Produktseiten stecken müssen, um zumindest nicht angreifbar zu sein. Immerhin erkennt Matt Cutts doch an: “Duplicate content can happen! (…) ”

 

Google Content Guidelines: Finger weg von schwachen Inhalten

Mit seiner aktualisierten Fassung der Content Guidelines stellt Google eines ganz klar: Nur wer Wert darauf legt, die Leser seiner Website mit neuem, gutem und originärem Inhalt zu beglücken, wird Erfolg in Sachen SEO haben.

Schwache Websites und Seiten, die gegen die Google-Richtlinien verstoßen, werden zum einen algorithmisch abgewertet und außerdem durch die Quality Rater von Google abgestraft.

Originärer Content stärkt die Reputation

Erstmals gibt Google in seinen Guidelines konkrete Beispiele, die dem Anwender Hilfestellung bieten.

Das Thema Duplicate Content spielt in den neuen Richtlinien eine wichtige Rolle. Neu ist das nicht, aber es ist und bleibt essenziell: Die Reputation einer Website hängt von qualitativem Inhalt ab, der den Lesern einen Mehrwert bietet. Was nicht bedeutet, dass aufgearbeitete Inhalte grundsätzlich Probleme bekommen. Dennoch straft Google Websites ab, die:

  • von kopiertem Inhalt leben
  • Inhalte kopieren und wiederholt veröffentlichen
  • nur unwesentlich veränderte Inhalte anderer Websites anbieten
  • oder Inhaltsfeeds reproduzieren

Vorsicht bei fremderzeugten Inhalten

Google wird sogar noch konkreter, was den Inhalt einer Webseite angeht, macht aber auch deutlich, dass Website-Betreiber nicht immer bewusst gegen die Richtlinien verstoßen. So ergreift Google bei nutzergeneriertem Spam nicht sofort manuelle Maßnahmen, aber:

„Sollte Ihre Website jedoch zu viel nutzergenerierten Spam enthalten, kann sich dies auf unsere Einschätzung der Website auswirken und letztlich zu einer manuellen Maßnahme gegen die gesamte Website führen.“

Das bedeutet, dass vor allem auf Inhalte in Kommentaren, Gästebüchern und Foren ein Auge zu haben ist.

Brückenseiten haben es schwer

Unter Brückenseiten versteht Google eine „umfangreiche Sammlung von Seiten mit geringer Qualität“. Es handelt sich um einzelne Websites, die auf bestimmte Suchwortgruppen optimiert wurden, um einen besseren Rang auf der Ergebnisseite zu erzielen. Über diese wird der Nutzer unliebsamerweise an ein anderes Ziel geleitet. Da dies die Nutzer verärgert, straft Google dieses irreführende Verhalten ab.

Die neuen Content Guidelines unterstützen weiterhin das Ziel hochwertige und nützliche Inhalte im Internet bereitzustellen – auch unter dem Gesichtspunkt SEO. Einen Blick auf die Richtlinien zu werfen, empfiehlt sich für unerfahrene Website-Betreiber und SEO-Profis gleichermaßen.

 

Die größten Fehler bei OnPage-Optimierung

Eine interessante Aufstellung der häufigsten OnPage-Fehler von Website-Betreibern habe ich in der Internet World Business gefunden. Quelle ist eine Befragung von SEO-Spezialisten weltweit.

Quelle: SEO Book

 

 

 

 

 

 

 

Spannend aus meiner Sicht ist die Unterscheidung zwischen schädlichsten und häufigsten Fehlern. Wie die Aufstellung zeigt, sind die häufigsten nicht immer die schädlichsten Fehler.

Berücksichtigt man beide Dimensionen, so ist interner Duplicate Content derzeit das größte Problem, mit dem Website-Betreiber zu kämpfen haben.

Guttenberg-Plagiate: Wie sieht’s aus mit doppeltem Content?

Die Berichterstattung über die aus unterschiedlichen Versatzstücken zusammenkopierte Dissertation (wie man sie im Guttenplag-Wiki nachlesen kann)   von Verteidigungsminister Guttenberg hat ja schon die unterschiedlichsten Facetten beleuchtet.  Aber die SEO-Sicht fehlt bisher noch – dabei ist die ganz unterhaltsam. Woran denkt der Suchmaschinenoptimierer, wenn er Copy-and-Paste hört? Genau, an duplicate Content.

Wie in der seriösen Wissenschaft straft Google nämlich das einfache Kopieren von Inhalten ab. Um den Plagiatoren auf die Schliche zu kommen, haben die Fachleute von Google ein Verfahren entwickelt, das bereits 2003 patentiert wurde.

In dem Verfahren werden Wortgruppen in einem Sliding Window verglichen. Die Länge der geprüften Wortgruppen liegt wahrscheinlich zwischen Satz- und Absatzlänge.

Ganz ähnlich wie Google arbeiten die unterschiedlichen Plagiatssoftwares, die teilweise an den Universitäten zur Aufdeckung unredlicher Zitierweisen eingesetzt werden. Um von der Software nicht überführt zu werden, muss man innerhalb der Wortgruppen variieren – also am besten in jedem Satz ein paar Wörter umstellen.

Gelb markiert sind die Abweichungen vom Original im Vergleich zur Guttenberg-Diss. Dieses Beispiel würde Google als duplicate content werten.(Quelle: spiegel.de)

Fazit: Wäre Guttenbergs Arbeit digital veröffentlich worden, würden  ihm wegen zu langer kopierter Textpassagen unter Umständen sogar noch die Google-Gelbe-Karte für doppelten Content drohen. Ob ihn das schrecken würde?

Duplicate Content – Was ist das eigentlich? (3)

Duplicate Content – Was ist das eigentlich? (3)

Gedankenexperiment: Autor vs. Sliding Window

Ausgehend von unseren Annahmen über die Größe des Sliding Window suchen wir uns einen String aus, der kleiner als ein Absatz ist, aber größer als ein Satz. Folgenden String wollen wir “ent-duplizieren”:

„Genießen Sie Ihren Traumurlaub im Strandhotel auf Mallorca. Hier erwartet Sie die ganze Fülle der mediterranen Kultur und Küche.“

Modell A

Reicht es aus, wenn wir „Strandhotel“ durch „Beach-Hotel“ ersetzen? Der Theorie nach schon, denn dann gäbe es ja eine Abweichung im Sliding Window. Doch hier macht uns Google mit seinem Praxisbeispiel einen Strich durch die Rechnung: „[…] if you have a travel site with separate pages for two cities, but the same information on both pages[…]“. Ein Wort pro Absatz zu ersetzen kann also nicht die Lösung des DC-Problems sein.

Modell B

Wie steht es jedoch, wenn wir die Satz-Reihenfolge im Absatz verändern? „Hier erwartet Sie die ganze Fülle der mediterranen Kultur und Küche. Genießen Sie Ihren Traumurlaub im Strandhotel auf Mallorca.“ Und hier beginnt die Krux. Würde das Sliding Window nur die Länge eines Satzes umfassen, würde es jeweils die Entsprechung beider Sätze in den Datenbanken wiederfinden. Damit hätten wir Duplicate Content. Umfasst das Window aber beide Sätze, würde es im ersten Schritt keine Entsprechung finden.

Überlappende Suchbereiche

Aber warum führt Google die Kategorie „the same information“ ein? Hat Google hier etwa die sagenumwobene semantische Such-Engine aus der Schublade geholt? Nach langer Überlegung vermute ich, dass das Sliding Window nicht Absatz für Absatz vergleicht, sondern mit Überlappungen arbeitet.

Modell C

Meiner Theorie zufolge müsste Google, um wirklich bestimmen zu können, ob ein Text ein abgewandeltes Duplikat ist, erst Satz1 und Satz2 vergleichen, dann Satz2 und Satz3 und so weiter. Immer in der Hoffnung, den einen Satz zu finden, den der Autor übersehen hat. Um einer Abwertung wegen DC zu entgehen, müssten wir für eine annähernde Gleichverteilung der abgewandelten Stellen sorgen, um in jedem „Suchfenster“ eine Abweichung unterzubringen.

Teil 1

Teil 2

Duplicate Content – Was ist das eigentlich? (2)

“Similar pages”, “the same information”… kann man das messen?
Was ist “ähnlich” im Sinne von Google? Garantiert keine Information, die Google freiwillig herausgibt. Und was misst Google überhaupt? Auf www.whiteside-seo.de rekonstruiert man aus Erfahrungswerten eine Herangehensweise. Diese lautet zusammengefasst:

  • Content ist das, was übrigbleibt, wenn man alle Elemente wegdenkt, die überall auf der Domain vorkommen. Header, Footer und Navigation fallen auf dem Wege schon einmal heraus. Bilder bleiben Teil des Content, denn sie „wohnen“ auf der gleichen Ebene.
  • Duplicate Content wird dann ranking-relevant, wenn Text und Bilder auf 2 Seiten zu 80% übereinstimmen.

Aber was ist nun wieder Übereinstimmung?

Wenn wir nun versuchen, Content zu gestalten, so dass er nicht als dupliziert gewertet wird, sollten wir aber noch wissen, wie die 80% Übereinstimmung berechnet werden. Das letzte Stück in unserem Puzzle liefert der Blog von www.trendmile.com:

„Eine bekannte Art wie Suchmaschinen auf doppelte Inhalte überprüfen ist das Verfahren des Sliding Window, bei diesem Verfahren werden eine festgelegte Anzahl von Zeichen der Webseite auf Ihre einzigartigkeit überprüft.“

Also ist es kein blinder all-in-all-Vergleich, den Google hier fährt. Die höhere Auflösung macht auch Sinn, um zitierte Passagen oder absatzweise Duplikate zu erkennen und entsprechend einzuordnen. Rein theoretisch reicht es also nicht aus, die Absätze einer Seite umzustellen.

Wir können davon ausgehen, dass die Sliding Window Methode zwei Strings miteinander vergleicht. Vermutlich ist die Größe des Fensters irgendwo unterhalb des ganzen Absatzes angesiedelt. Die Vermutung geht auf CMS wie RedDot zurück, die containerbasiert arbeiten und Absatzcontainer durchaus auf mehreren Seiten verwenden. Vermutlich ist das Window auch größer als ein einzelner Satz, denn selbst Google hat keine Rechenleistung zu verschenken.