Duplicate Content – Was ist das eigentlich? (2)

“Similar pages”, “the same information”… kann man das messen?
Was ist “ähnlich” im Sinne von Google? Garantiert keine Information, die Google freiwillig herausgibt. Und was misst Google überhaupt? Auf www.whiteside-seo.de rekonstruiert man aus Erfahrungswerten eine Herangehensweise. Diese lautet zusammengefasst:

  • Content ist das, was übrigbleibt, wenn man alle Elemente wegdenkt, die überall auf der Domain vorkommen. Header, Footer und Navigation fallen auf dem Wege schon einmal heraus. Bilder bleiben Teil des Content, denn sie „wohnen“ auf der gleichen Ebene.
  • Duplicate Content wird dann ranking-relevant, wenn Text und Bilder auf 2 Seiten zu 80% übereinstimmen.

Aber was ist nun wieder Übereinstimmung?

Wenn wir nun versuchen, Content zu gestalten, so dass er nicht als dupliziert gewertet wird, sollten wir aber noch wissen, wie die 80% Übereinstimmung berechnet werden. Das letzte Stück in unserem Puzzle liefert der Blog von www.trendmile.com:

„Eine bekannte Art wie Suchmaschinen auf doppelte Inhalte überprüfen ist das Verfahren des Sliding Window, bei diesem Verfahren werden eine festgelegte Anzahl von Zeichen der Webseite auf Ihre einzigartigkeit überprüft.“

Also ist es kein blinder all-in-all-Vergleich, den Google hier fährt. Die höhere Auflösung macht auch Sinn, um zitierte Passagen oder absatzweise Duplikate zu erkennen und entsprechend einzuordnen. Rein theoretisch reicht es also nicht aus, die Absätze einer Seite umzustellen.

Wir können davon ausgehen, dass die Sliding Window Methode zwei Strings miteinander vergleicht. Vermutlich ist die Größe des Fensters irgendwo unterhalb des ganzen Absatzes angesiedelt. Die Vermutung geht auf CMS wie RedDot zurück, die containerbasiert arbeiten und Absatzcontainer durchaus auf mehreren Seiten verwenden. Vermutlich ist das Window auch größer als ein einzelner Satz, denn selbst Google hat keine Rechenleistung zu verschenken.

http://www.seo-gold.de/wp-content/plugins/sociofluid/images/twitter_48.png http://www.seo-gold.de/wp-content/plugins/sociofluid/images/google_48.png http://www.seo-gold.de/wp-content/plugins/sociofluid/images/stumbleupon_48.png http://www.seo-gold.de/wp-content/plugins/sociofluid/images/delicious_48.png http://www.seo-gold.de/wp-content/plugins/sociofluid/images/digg_48.png http://www.seo-gold.de/wp-content/plugins/sociofluid/images/reddit_48.png http://www.seo-gold.de/wp-content/plugins/sociofluid/images/dzone_48.png http://www.seo-gold.de/wp-content/plugins/sociofluid/images/blinklist_48.png http://www.seo-gold.de/wp-content/plugins/sociofluid/images/blogmarks_48.png http://www.seo-gold.de/wp-content/plugins/sociofluid/images/furl_48.png http://www.seo-gold.de/wp-content/plugins/sociofluid/images/newsvine_48.png http://www.seo-gold.de/wp-content/plugins/sociofluid/images/technorati_48.png http://www.seo-gold.de/wp-content/plugins/sociofluid/images/magnolia_48.png http://www.seo-gold.de/wp-content/plugins/sociofluid/images/myspace_48.png http://www.seo-gold.de/wp-content/plugins/sociofluid/images/facebook_48.png http://www.seo-gold.de/wp-content/plugins/sociofluid/images/yahoobuzz_48.png http://www.seo-gold.de/wp-content/plugins/sociofluid/images/jamespot_48.png

3 Kommentare zu “Duplicate Content – Was ist das eigentlich? (2)”

  1. Picard  on November 11th, 2010

    Ok. Was noch fehlt ist der Unterschied zwischen internen und externen “duplicate content”. Was ist mit Prdouktbeschreibungen? Diese kommen massenweise vor – auch “duplicate content”? Zwei Zeilen mehr und der Artikel erreicht eine andere Tiefe.

    Vielen Dank dennoch…

    Picard

  2. Pascal  on November 27th, 2010

    Dieses “Sliding Window” ist das sog. Shingle Verfahren nach Andrei Z. Broder. Habe mich mit der Thematik in der letzten Zeit intensiver auseinadergesetzt und die Ergebnisse unter http://www.mywebsolution.de/artikel/20/show_Unique-und-Duplicate-Content.html zusammengefasst.

    Grüße
    Pascal

  3. saim.alkan  on Dezember 2nd, 2010

    Danke für den Hinweis Pascal – das mit dem Shingle-Verfahren hast du ja gut nachvollziehbar dargestellt.


Kommentare