Tag Archiv: doppelter Content

Web-Shops und das Problem mit Duplicate Content

Produktbeschreibungen, Herstellerinformationen, Preis, vielleicht noch Kundenbewertungen – viel mehr Content ist bei den meisten Web-Shops nicht zu finden. Die meisten Texte werden vom Hersteller geliefert und sind auf vielen Shops zu lesen. Nicht selten umfasst ein Web-Shop tausende von Produkt-Seiten, die fast identisch sind mit Produktseiten anderer Shops. Wenn dann Google mit der Abstrafung von doppeltem Content droht, dann wissen viele Shop-Betreiber nicht, was sie mit ihrem doppeltem Content tun sollen.

Zum Problem, wie man mit solchen weit verbreitetem Content auf vielen Seiten umgehen kann, hat vor kurzem Rand Fishkin einige interessante Aspekte angerissen:

  • Der beste Weg ist, eigenen zusätzlichen unique content dazu stellen, um sich von den Inhalten der Konkurrenz abzuheben
  • In technischer Hinsicht schlägt er vor, doppelten Content in I-Frames einzubinden (ist aber, wenn man die Kommentare liest, ziemlich umstritten)
  • Ein wenig schwammig bleibt sein Hinweis, die Content Schnippsel aus anderen Quellen so zusammenstellen, zu visualisieren und zu überarbeiten, dass sie dem User einen Mehrwert bieten.  Reicht da eine eigene Zusammenfassung in drei Sätzen? Und wie erkennt Google, dass eine Grafik einen Mehrwert bietet?

Einen greibaren Lösungsvorschlag bietet Rand hier nicht wirklich. Natürlich wünscht sich Google eine Mehrwert für den User (auf diesen Aspekt ist Rand in seinem Video über “unique content” bereits deutlich eingegangen), aber manche Shop-Betreiber müssen einfach rechnen, wie viel Zeit und Geld sie in die Überarbeitung ihrer Produktseiten stecken müssen, um zumindest nicht angreifbar zu sein. Immerhin erkennt Matt Cutts doch an: “Duplicate content can happen! (…) ”

 

Panda-Update: Google auf der Jagd nach schlechtem Content

Alarm für Content Farmen: Mit dem aktuellen Update “Panda” bläst Google zur Jagd auf Websites mit schlechter Content-Qualität. Rund 12 % der Suchanfragen werden von dem aktuellen Update betroffen sein – also keine Randerscheinung. Abgestraft werden nicht nur reine Spam-Websites – für die Verbannung in hintere Reihen reicht es schon aus, wenn ein Teil des Contents den Google-Qualitätskriterien nicht entspricht.

Was heißt denn nach Google Content Qualität? Hier liefert Google nur eine Negativliste:

  • seichter Content (zu wenig Informationstiefe oder zu wenig Infos allgemein)
  • schlecht geschriebener Content
  • von anderen Websites kopierter Content
  • Content, der nicht nützlich ist

Google belohnt also selbst geschriebenen, nützlichen Content mit ausreichend Informationen in guter Sprachqualität.

Nur, wie will Google das messen? In einem Interview mit dem wired-magazin reißen die Google-Qualitätswächter Amit Singhal und Matt Cutts die Vorgehensweise kurz an: Zunächst wurden Tester beauftragt, Seiten als glaubwürdig oder nicht einzustufen, daraus wurde dann ein Fragenkatalog entwickelt, der die Basis eines Algorithmus bildet. Nur, welche Signale kann der Algorithmus aufnehmen? Hierzu hat Gretus von seounited.de ein paar Anhaltspunkte zusammengetragen:

  • Länge eines Textes: Zu kurz deutet auf wenig Infos hin.
  • Strukturierung eines Textes: Ganz typisch für schnell zusammengeschriebene Texte: einfach nur Fließtext ohne Strukturierung (Fettung, Überschriften, Bulletpoints).
  • Thema des Textes zu spezifisch: Spam setzt auf Longtail-Keywords, deswegen sind sie häufig auf Keyword-Phrasen optimiert.
  • Verwendung/Nichtverwendung von Keywords: Auf der einen Seite sind stupide Keywordwiederholungen ein gutes Indiz für Spam. Auf der anderen Seite zeugt das Fehlen wichtiger Begriffe aus dem Themenbereich davon, dass hier schnell ein Text ohne tieferes Verständnis für das Thema zusammengeschrieben wurde.

Das sind nur die reinen Text-Faktoren, dazu werden sicher noch andere On-und Off-Page-Faktoren hinzukommen, wie Rand Fishkin vermutet:

  • Userdaten, wie z.B. die Verweildauer auf der Seite, die Click-through-rate.
  • Analyse des Content mit Lesbarkeitsindex, Analyse der Einzigartigkeit des Content und vielleicht der attraktiven optischen Präsentation.

Die Untersuchungen der Auswirkungen, des bisher nur auf Google.com umgesetzten updates, von Rand Fishkin und Johannes Beus, zeigen noch keine einheitliche Tendenz.

Etwas vage bleibt das Panda-Update irgendwie schon. Ist es Google tatsächlich gelungen, Content-Qualität (außerhalb der Bewertung der Verlinkung)  besser messbar zu machen? Oder ist es nur “heiße Luft” wie es Martin Mißfeldt formuliert, der vermutet, dass es sich hierbei nur um eine Verschärfung bei der Ermittlung von “Duplicate Content” handelt?

Guttenberg-Plagiate: Wie sieht’s aus mit doppeltem Content?

Die Berichterstattung über die aus unterschiedlichen Versatzstücken zusammenkopierte Dissertation (wie man sie im Guttenplag-Wiki nachlesen kann)   von Verteidigungsminister Guttenberg hat ja schon die unterschiedlichsten Facetten beleuchtet.  Aber die SEO-Sicht fehlt bisher noch – dabei ist die ganz unterhaltsam. Woran denkt der Suchmaschinenoptimierer, wenn er Copy-and-Paste hört? Genau, an duplicate Content.

Wie in der seriösen Wissenschaft straft Google nämlich das einfache Kopieren von Inhalten ab. Um den Plagiatoren auf die Schliche zu kommen, haben die Fachleute von Google ein Verfahren entwickelt, das bereits 2003 patentiert wurde.

In dem Verfahren werden Wortgruppen in einem Sliding Window verglichen. Die Länge der geprüften Wortgruppen liegt wahrscheinlich zwischen Satz- und Absatzlänge.

Ganz ähnlich wie Google arbeiten die unterschiedlichen Plagiatssoftwares, die teilweise an den Universitäten zur Aufdeckung unredlicher Zitierweisen eingesetzt werden. Um von der Software nicht überführt zu werden, muss man innerhalb der Wortgruppen variieren – also am besten in jedem Satz ein paar Wörter umstellen.

Gelb markiert sind die Abweichungen vom Original im Vergleich zur Guttenberg-Diss. Dieses Beispiel würde Google als duplicate content werten.(Quelle: spiegel.de)

Fazit: Wäre Guttenbergs Arbeit digital veröffentlich worden, würden  ihm wegen zu langer kopierter Textpassagen unter Umständen sogar noch die Google-Gelbe-Karte für doppelten Content drohen. Ob ihn das schrecken würde?

Gegen doppelten Content und Linkdschungel: “canonical tag”

Doppelter Content gefällt eigentlich niemanden:  Dem suchenden User nicht, denn schließlich will er keine 15 Treffer mit demselben Inhalt. Den Suchmaschinen erschwert er das Indizieren, weil sie nur die “Originalversion” aufnehmen wollen. Und die Web-Site-Betreibern fürchten Ranking-Verluste von Seiten der Suchmaschinenbetreiber.

Doch lässt sich doppelter Content in einigen Fälllen einfach nicht vermeiden: Gerade in Online-Shops ergeben sich durch Sortierfunktionen und unterschiedliche ID-Sessions immer wieder neue URLs für diesselben Inhalte.

Jetzt haben sich die drei großen Suchmaschinenbetreiber Google, Yahoo und Microsoft auf einen gemeinsamen Vorschlag geeinigt: Beim Programmieren sollen die Website-Betreiber angeben, welche Seite die maßgebliche sein soll.

Im header kann ein link-tag gesetzt werden, der den Suchmaschinen so weiterhilft:

<link rel=”canonical” href=”http://www.example.com/products” />

Die “Originalseite” ist also in diesem Fall, die Kategorie “products” auf der Beispiel-Website. Damit entbindet der Website-Betreiber die Suchmaschinen vor dem schwierigen Problem, diese Art von doppeltem Content richtig zu bewerten.

Das funktioniert aber nur für Content auf derselben Domain – und löst damit das Grundproblem “doppelter Content” nicht wirklich.