Duplicate Content – Was ist das eigentlich? (3)
Duplicate Content – Was ist das eigentlich? (3)
Gedankenexperiment: Autor vs. Sliding Window
Ausgehend von unseren Annahmen über die Größe des Sliding Window suchen wir uns einen String aus, der kleiner als ein Absatz ist, aber größer als ein Satz. Folgenden String wollen wir “ent-duplizieren”:
„Genießen Sie Ihren Traumurlaub im Strandhotel auf Mallorca. Hier erwartet Sie die ganze Fülle der mediterranen Kultur und Küche.“
Modell A
Reicht es aus, wenn wir „Strandhotel“ durch „Beach-Hotel“ ersetzen? Der Theorie nach schon, denn dann gäbe es ja eine Abweichung im Sliding Window. Doch hier macht uns Google mit seinem Praxisbeispiel einen Strich durch die Rechnung: „[…] if you have a travel site with separate pages for two cities, but the same information on both pages[…]“. Ein Wort pro Absatz zu ersetzen kann also nicht die Lösung des DC-Problems sein.
Modell B
Wie steht es jedoch, wenn wir die Satz-Reihenfolge im Absatz verändern? „Hier erwartet Sie die ganze Fülle der mediterranen Kultur und Küche. Genießen Sie Ihren Traumurlaub im Strandhotel auf Mallorca.“ Und hier beginnt die Krux. Würde das Sliding Window nur die Länge eines Satzes umfassen, würde es jeweils die Entsprechung beider Sätze in den Datenbanken wiederfinden. Damit hätten wir Duplicate Content. Umfasst das Window aber beide Sätze, würde es im ersten Schritt keine Entsprechung finden.
Überlappende Suchbereiche
Aber warum führt Google die Kategorie „the same information“ ein? Hat Google hier etwa die sagenumwobene semantische Such-Engine aus der Schublade geholt? Nach langer Überlegung vermute ich, dass das Sliding Window nicht Absatz für Absatz vergleicht, sondern mit Überlappungen arbeitet.
Modell C
Meiner Theorie zufolge müsste Google, um wirklich bestimmen zu können, ob ein Text ein abgewandeltes Duplikat ist, erst Satz1 und Satz2 vergleichen, dann Satz2 und Satz3 und so weiter. Immer in der Hoffnung, den einen Satz zu finden, den der Autor übersehen hat. Um einer Abwertung wegen DC zu entgehen, müssten wir für eine annähernde Gleichverteilung der abgewandelten Stellen sorgen, um in jedem „Suchfenster“ eine Abweichung unterzubringen.

Letzte Kommentare