Tag Archiv: Duplicate Content

Guttenberg-Plagiate: Wie sieht’s aus mit doppeltem Content?

Die Berichterstattung über die aus unterschiedlichen Versatzstücken zusammenkopierte Dissertation (wie man sie im Guttenplag-Wiki nachlesen kann)   von Verteidigungsminister Guttenberg hat ja schon die unterschiedlichsten Facetten beleuchtet.  Aber die SEO-Sicht fehlt bisher noch – dabei ist die ganz unterhaltsam. Woran denkt der Suchmaschinenoptimierer, wenn er Copy-and-Paste hört? Genau, an duplicate Content.

Wie in der seriösen Wissenschaft straft Google nämlich das einfache Kopieren von Inhalten ab. Um den Plagiatoren auf die Schliche zu kommen, haben die Fachleute von Google ein Verfahren entwickelt, das bereits 2003 patentiert wurde.

In dem Verfahren werden Wortgruppen in einem Sliding Window verglichen. Die Länge der geprüften Wortgruppen liegt wahrscheinlich zwischen Satz- und Absatzlänge.

Ganz ähnlich wie Google arbeiten die unterschiedlichen Plagiatssoftwares, die teilweise an den Universitäten zur Aufdeckung unredlicher Zitierweisen eingesetzt werden. Um von der Software nicht überführt zu werden, muss man innerhalb der Wortgruppen variieren – also am besten in jedem Satz ein paar Wörter umstellen.

Gelb markiert sind die Abweichungen vom Original im Vergleich zur Guttenberg-Diss. Dieses Beispiel würde Google als duplicate content werten.(Quelle: spiegel.de)

Fazit: Wäre Guttenbergs Arbeit digital veröffentlich worden, würden  ihm wegen zu langer kopierter Textpassagen unter Umständen sogar noch die Google-Gelbe-Karte für doppelten Content drohen. Ob ihn das schrecken würde?

Duplicate Content – Was ist das eigentlich? (3)

Duplicate Content – Was ist das eigentlich? (3)

Gedankenexperiment: Autor vs. Sliding Window

Ausgehend von unseren Annahmen über die Größe des Sliding Window suchen wir uns einen String aus, der kleiner als ein Absatz ist, aber größer als ein Satz. Folgenden String wollen wir “ent-duplizieren”:

„Genießen Sie Ihren Traumurlaub im Strandhotel auf Mallorca. Hier erwartet Sie die ganze Fülle der mediterranen Kultur und Küche.“

Modell A

Reicht es aus, wenn wir „Strandhotel“ durch „Beach-Hotel“ ersetzen? Der Theorie nach schon, denn dann gäbe es ja eine Abweichung im Sliding Window. Doch hier macht uns Google mit seinem Praxisbeispiel einen Strich durch die Rechnung: „[…] if you have a travel site with separate pages for two cities, but the same information on both pages[…]“. Ein Wort pro Absatz zu ersetzen kann also nicht die Lösung des DC-Problems sein.

Modell B

Wie steht es jedoch, wenn wir die Satz-Reihenfolge im Absatz verändern? „Hier erwartet Sie die ganze Fülle der mediterranen Kultur und Küche. Genießen Sie Ihren Traumurlaub im Strandhotel auf Mallorca.“ Und hier beginnt die Krux. Würde das Sliding Window nur die Länge eines Satzes umfassen, würde es jeweils die Entsprechung beider Sätze in den Datenbanken wiederfinden. Damit hätten wir Duplicate Content. Umfasst das Window aber beide Sätze, würde es im ersten Schritt keine Entsprechung finden.

Überlappende Suchbereiche

Aber warum führt Google die Kategorie „the same information“ ein? Hat Google hier etwa die sagenumwobene semantische Such-Engine aus der Schublade geholt? Nach langer Überlegung vermute ich, dass das Sliding Window nicht Absatz für Absatz vergleicht, sondern mit Überlappungen arbeitet.

Modell C

Meiner Theorie zufolge müsste Google, um wirklich bestimmen zu können, ob ein Text ein abgewandeltes Duplikat ist, erst Satz1 und Satz2 vergleichen, dann Satz2 und Satz3 und so weiter. Immer in der Hoffnung, den einen Satz zu finden, den der Autor übersehen hat. Um einer Abwertung wegen DC zu entgehen, müssten wir für eine annähernde Gleichverteilung der abgewandelten Stellen sorgen, um in jedem „Suchfenster“ eine Abweichung unterzubringen.

Teil 1

Teil 2

Duplicate Content – Was ist das eigentlich? (2)

“Similar pages”, “the same information”… kann man das messen?
Was ist “ähnlich” im Sinne von Google? Garantiert keine Information, die Google freiwillig herausgibt. Und was misst Google überhaupt? Auf www.whiteside-seo.de rekonstruiert man aus Erfahrungswerten eine Herangehensweise. Diese lautet zusammengefasst:

  • Content ist das, was übrigbleibt, wenn man alle Elemente wegdenkt, die überall auf der Domain vorkommen. Header, Footer und Navigation fallen auf dem Wege schon einmal heraus. Bilder bleiben Teil des Content, denn sie „wohnen“ auf der gleichen Ebene.
  • Duplicate Content wird dann ranking-relevant, wenn Text und Bilder auf 2 Seiten zu 80% übereinstimmen.

Aber was ist nun wieder Übereinstimmung?

Wenn wir nun versuchen, Content zu gestalten, so dass er nicht als dupliziert gewertet wird, sollten wir aber noch wissen, wie die 80% Übereinstimmung berechnet werden. Das letzte Stück in unserem Puzzle liefert der Blog von www.trendmile.com:

„Eine bekannte Art wie Suchmaschinen auf doppelte Inhalte überprüfen ist das Verfahren des Sliding Window, bei diesem Verfahren werden eine festgelegte Anzahl von Zeichen der Webseite auf Ihre einzigartigkeit überprüft.“

Also ist es kein blinder all-in-all-Vergleich, den Google hier fährt. Die höhere Auflösung macht auch Sinn, um zitierte Passagen oder absatzweise Duplikate zu erkennen und entsprechend einzuordnen. Rein theoretisch reicht es also nicht aus, die Absätze einer Seite umzustellen.

Wir können davon ausgehen, dass die Sliding Window Methode zwei Strings miteinander vergleicht. Vermutlich ist die Größe des Fensters irgendwo unterhalb des ganzen Absatzes angesiedelt. Die Vermutung geht auf CMS wie RedDot zurück, die containerbasiert arbeiten und Absatzcontainer durchaus auf mehreren Seiten verwenden. Vermutlich ist das Window auch größer als ein einzelner Satz, denn selbst Google hat keine Rechenleistung zu verschenken.