Archiv für September, 2010

Duplicate Content – Was ist das eigentlich? (3)

Duplicate Content – Was ist das eigentlich? (3)

Gedankenexperiment: Autor vs. Sliding Window

Ausgehend von unseren Annahmen über die Größe des Sliding Window suchen wir uns einen String aus, der kleiner als ein Absatz ist, aber größer als ein Satz. Folgenden String wollen wir “ent-duplizieren”:

„Genießen Sie Ihren Traumurlaub im Strandhotel auf Mallorca. Hier erwartet Sie die ganze Fülle der mediterranen Kultur und Küche.“

Modell A

Reicht es aus, wenn wir „Strandhotel“ durch „Beach-Hotel“ ersetzen? Der Theorie nach schon, denn dann gäbe es ja eine Abweichung im Sliding Window. Doch hier macht uns Google mit seinem Praxisbeispiel einen Strich durch die Rechnung: „[…] if you have a travel site with separate pages for two cities, but the same information on both pages[…]“. Ein Wort pro Absatz zu ersetzen kann also nicht die Lösung des DC-Problems sein.

Modell B

Wie steht es jedoch, wenn wir die Satz-Reihenfolge im Absatz verändern? „Hier erwartet Sie die ganze Fülle der mediterranen Kultur und Küche. Genießen Sie Ihren Traumurlaub im Strandhotel auf Mallorca.“ Und hier beginnt die Krux. Würde das Sliding Window nur die Länge eines Satzes umfassen, würde es jeweils die Entsprechung beider Sätze in den Datenbanken wiederfinden. Damit hätten wir Duplicate Content. Umfasst das Window aber beide Sätze, würde es im ersten Schritt keine Entsprechung finden.

Überlappende Suchbereiche

Aber warum führt Google die Kategorie „the same information“ ein? Hat Google hier etwa die sagenumwobene semantische Such-Engine aus der Schublade geholt? Nach langer Überlegung vermute ich, dass das Sliding Window nicht Absatz für Absatz vergleicht, sondern mit Überlappungen arbeitet.

Modell C

Meiner Theorie zufolge müsste Google, um wirklich bestimmen zu können, ob ein Text ein abgewandeltes Duplikat ist, erst Satz1 und Satz2 vergleichen, dann Satz2 und Satz3 und so weiter. Immer in der Hoffnung, den einen Satz zu finden, den der Autor übersehen hat. Um einer Abwertung wegen DC zu entgehen, müssten wir für eine annähernde Gleichverteilung der abgewandelten Stellen sorgen, um in jedem „Suchfenster“ eine Abweichung unterzubringen.

Teil 1

Teil 2

Duplicate Content – Was ist das eigentlich? (2)

“Similar pages”, “the same information”… kann man das messen?
Was ist “ähnlich” im Sinne von Google? Garantiert keine Information, die Google freiwillig herausgibt. Und was misst Google überhaupt? Auf www.whiteside-seo.de rekonstruiert man aus Erfahrungswerten eine Herangehensweise. Diese lautet zusammengefasst:

  • Content ist das, was übrigbleibt, wenn man alle Elemente wegdenkt, die überall auf der Domain vorkommen. Header, Footer und Navigation fallen auf dem Wege schon einmal heraus. Bilder bleiben Teil des Content, denn sie „wohnen“ auf der gleichen Ebene.
  • Duplicate Content wird dann ranking-relevant, wenn Text und Bilder auf 2 Seiten zu 80% übereinstimmen.

Aber was ist nun wieder Übereinstimmung?

Wenn wir nun versuchen, Content zu gestalten, so dass er nicht als dupliziert gewertet wird, sollten wir aber noch wissen, wie die 80% Übereinstimmung berechnet werden. Das letzte Stück in unserem Puzzle liefert der Blog von www.trendmile.com:

„Eine bekannte Art wie Suchmaschinen auf doppelte Inhalte überprüfen ist das Verfahren des Sliding Window, bei diesem Verfahren werden eine festgelegte Anzahl von Zeichen der Webseite auf Ihre einzigartigkeit überprüft.“

Also ist es kein blinder all-in-all-Vergleich, den Google hier fährt. Die höhere Auflösung macht auch Sinn, um zitierte Passagen oder absatzweise Duplikate zu erkennen und entsprechend einzuordnen. Rein theoretisch reicht es also nicht aus, die Absätze einer Seite umzustellen.

Wir können davon ausgehen, dass die Sliding Window Methode zwei Strings miteinander vergleicht. Vermutlich ist die Größe des Fensters irgendwo unterhalb des ganzen Absatzes angesiedelt. Die Vermutung geht auf CMS wie RedDot zurück, die containerbasiert arbeiten und Absatzcontainer durchaus auf mehreren Seiten verwenden. Vermutlich ist das Window auch größer als ein einzelner Satz, denn selbst Google hat keine Rechenleistung zu verschenken.

Duplicate Content – Was ist das eigentlich? (1)

Nicht erst seit gestern beschäftigen sich SEOs mit dem Thema Duplicate Content, mit dem üblichen Ergebnis: Es gibt eine ganze Palette verschiedener Definitionen und Herangehensweisen, und die meisten davon kursieren in Form von Gerüchten. Böse Zungen behaupten, Duplicate Content sei lediglich eine willkommene Entschuldigung, wenn sich Pageranks plötzlich verschlechtern. Grund genug, das Phänomen einmal unter die Lupe zu nehmen.

First things first: Was sagt Google selbst über Duplicate Content?

Eigentlich ist die Ausgangslage beim Thema Duplicate Content gar nicht so schlecht. Im Gegensatz zu vielen anderen Themen gibt es nämlich ein recht ausführliches Google Statement zum dem Thema in der Webmaster Central. Google liefert uns hier eine Definition:

„substantive blocks of content within or across domains that either completely match other content or are appreciably similar.“

Eine Entwarnung schickt Google auch gleich mit: Duplicate Content wird nicht abgewertet außer er diene dazu: “to be deceptive and manipulate search engine results.” – Ehrensache.

Dazu gibt es von Google noch Tipps, wie sich “DC” vermeiden lässt. Die meisten Hinweise sind technischer Natur und bereits bereits weithin bekannt. Ein Tipp bezieht sich jedoch auf den Content selbst:

“Minimize similar content: […]For instance, if you have a travel site with separate pages for two cities, but the same information on both pages, you could either merge the pages into one page about both cities or you could expand each page to contain unique content about each city.”

Nebulös genug… In den nächsten Tagen werde ich mich einmal intensiv mit dem Thema beschäftigen und die Ergebnisse posten.