Tag Archiv: doppelter Content

Panda-Update: Google auf der Jagd nach schlechtem Content

Alarm für Content Farmen: Mit dem aktuellen Update “Panda” bläst Google zur Jagd auf Websites mit schlechter Content-Qualität. Rund 12 % der Suchanfragen werden von dem aktuellen Update betroffen sein – also keine Randerscheinung. Abgestraft werden nicht nur reine Spam-Websites – für die Verbannung in hintere Reihen reicht es schon aus, wenn ein Teil des Contents den Google-Qualitätskriterien nicht entspricht.

Was heißt denn nach Google Content Qualität? Hier liefert Google nur eine Negativliste:

  • seichter Content (zu wenig Informationstiefe oder zu wenig Infos allgemein)
  • schlecht geschriebener Content
  • von anderen Websites kopierter Content
  • Content, der nicht nützlich ist

Google belohnt also selbst geschriebenen, nützlichen Content mit ausreichend Informationen in guter Sprachqualität.

Nur, wie will Google das messen? In einem Interview mit dem wired-magazin reißen die Google-Qualitätswächter Amit Singhal und Matt Cutts die Vorgehensweise kurz an: Zunächst wurden Tester beauftragt, Seiten als glaubwürdig oder nicht einzustufen, daraus wurde dann ein Fragenkatalog entwickelt, der die Basis eines Algorithmus bildet. Nur, welche Signale kann der Algorithmus aufnehmen? Hierzu hat Gretus von seounited.de ein paar Anhaltspunkte zusammengetragen:

  • Länge eines Textes: Zu kurz deutet auf wenig Infos hin.
  • Strukturierung eines Textes: Ganz typisch für schnell zusammengeschriebene Texte: einfach nur Fließtext ohne Strukturierung (Fettung, Überschriften, Bulletpoints).
  • Thema des Textes zu spezifisch: Spam setzt auf Longtail-Keywords, deswegen sind sie häufig auf Keyword-Phrasen optimiert.
  • Verwendung/Nichtverwendung von Keywords: Auf der einen Seite sind stupide Keywordwiederholungen ein gutes Indiz für Spam. Auf der anderen Seite zeugt das Fehlen wichtiger Begriffe aus dem Themenbereich davon, dass hier schnell ein Text ohne tieferes Verständnis für das Thema zusammengeschrieben wurde.

Das sind nur die reinen Text-Faktoren, dazu werden sicher noch andere On-und Off-Page-Faktoren hinzukommen, wie Rand Fishkin vermutet:

  • Userdaten, wie z.B. die Verweildauer auf der Seite, die Click-through-rate.
  • Analyse des Content mit Lesbarkeitsindex, Analyse der Einzigartigkeit des Content und vielleicht der attraktiven optischen Präsentation.

Die Untersuchungen der Auswirkungen, des bisher nur auf Google.com umgesetzten updates, von Rand Fishkin und Johannes Beus, zeigen noch keine einheitliche Tendenz.

Etwas vage bleibt das Panda-Update irgendwie schon. Ist es Google tatsächlich gelungen, Content-Qualität (außerhalb der Bewertung der Verlinkung)  besser messbar zu machen? Oder ist es nur “heiße Luft” wie es Martin Mißfeldt formuliert, der vermutet, dass es sich hierbei nur um eine Verschärfung bei der Ermittlung von “Duplicate Content” handelt?

Guttenberg-Plagiate: Wie sieht’s aus mit doppeltem Content?

Die Berichterstattung über die aus unterschiedlichen Versatzstücken zusammenkopierte Dissertation (wie man sie im Guttenplag-Wiki nachlesen kann)   von Verteidigungsminister Guttenberg hat ja schon die unterschiedlichsten Facetten beleuchtet.  Aber die SEO-Sicht fehlt bisher noch – dabei ist die ganz unterhaltsam. Woran denkt der Suchmaschinenoptimierer, wenn er Copy-and-Paste hört? Genau, an duplicate Content.

Wie in der seriösen Wissenschaft straft Google nämlich das einfache Kopieren von Inhalten ab. Um den Plagiatoren auf die Schliche zu kommen, haben die Fachleute von Google ein Verfahren entwickelt, das bereits 2003 patentiert wurde.

In dem Verfahren werden Wortgruppen in einem Sliding Window verglichen. Die Länge der geprüften Wortgruppen liegt wahrscheinlich zwischen Satz- und Absatzlänge.

Ganz ähnlich wie Google arbeiten die unterschiedlichen Plagiatssoftwares, die teilweise an den Universitäten zur Aufdeckung unredlicher Zitierweisen eingesetzt werden. Um von der Software nicht überführt zu werden, muss man innerhalb der Wortgruppen variieren – also am besten in jedem Satz ein paar Wörter umstellen.

Gelb markiert sind die Abweichungen vom Original im Vergleich zur Guttenberg-Diss. Dieses Beispiel würde Google als duplicate content werten.(Quelle: spiegel.de)

Fazit: Wäre Guttenbergs Arbeit digital veröffentlich worden, würden  ihm wegen zu langer kopierter Textpassagen unter Umständen sogar noch die Google-Gelbe-Karte für doppelten Content drohen. Ob ihn das schrecken würde?

Gegen doppelten Content und Linkdschungel: “canonical tag”

Doppelter Content gefällt eigentlich niemanden:  Dem suchenden User nicht, denn schließlich will er keine 15 Treffer mit demselben Inhalt. Den Suchmaschinen erschwert er das Indizieren, weil sie nur die “Originalversion” aufnehmen wollen. Und die Web-Site-Betreibern fürchten Ranking-Verluste von Seiten der Suchmaschinenbetreiber.

Doch lässt sich doppelter Content in einigen Fälllen einfach nicht vermeiden: Gerade in Online-Shops ergeben sich durch Sortierfunktionen und unterschiedliche ID-Sessions immer wieder neue URLs für diesselben Inhalte.

Jetzt haben sich die drei großen Suchmaschinenbetreiber Google, Yahoo und Microsoft auf einen gemeinsamen Vorschlag geeinigt: Beim Programmieren sollen die Website-Betreiber angeben, welche Seite die maßgebliche sein soll.

Im header kann ein link-tag gesetzt werden, der den Suchmaschinen so weiterhilft:

<link rel=”canonical” href=”http://www.example.com/products” />

Die “Originalseite” ist also in diesem Fall, die Kategorie “products” auf der Beispiel-Website. Damit entbindet der Website-Betreiber die Suchmaschinen vor dem schwierigen Problem, diese Art von doppeltem Content richtig zu bewerten.

Das funktioniert aber nur für Content auf derselben Domain – und löst damit das Grundproblem “doppelter Content” nicht wirklich.