Duplicate content, in het Nederlands dubbele inhoud, houdt elke website eigenaar op een gegeven moment wel bezig. Velen zijn daarbij angstig voor een ‘duplicate content penalty’ van Google, slecht voor je SEO. Wees gerust, deze penalty bestaat helemaal niet. Althans, niet in de vorm zoals de meeste mensen erover spreken!

Wat is duplicate content?

De webmasterhulpprogramma’s schrijven het volgende over duplicate content:

Dubbele inhoud verwijst gewoonlijk naar substantiële blokken inhoud binnen of tussen domeinen die ofwel volledig gelijk zijn of in hoge mate op elkaar lijken. Dit is meestal niet misleidend bedoeld. Voorbeelden van niet-kwaadwillige dubbele inhoud zijn:

  • Discussiegroepen die zowel normale pagina’s als ingekorte versies voor mobiele apparaten kunnen genereren
  • Items die worden weergegeven of waarnaar wordt verwezen via meerdere, afzonderlijke URL’s
  • Printerversies van webpagina’s

In het artikel Deftly dealing with duplicate content uit 2006 gaven ze ook reeds die voorbeelden:

…forums that generate both regular and stripped-down mobile-targeted pages, store items shown (and — worse yet — linked) via multiple distinct URLs, and so on.

In het artikel Demystifying the “duplicate content penalty” uit 2008 geven ze een concreet voorbeeld van een webpagina die via twee afzonderlijke URL’s kan worden weergegeven, maar exact dezelfde pagina is:

Like www.example.com/skates.asp?color=black&brand=riedell and www.example.com/skates.asp?brand=riedell&color=black.

Bij de eerste link wordt eerst de kleur geselecteerd in een webwinkel, en daarna het merk. In de tweede link is dit net andersom. En dit is ook exact het soort ‘duplicate content’, verschillende URL’s voor dezelfde pagina, waar de meeste webmasters zich zorgen over maken:

Uit het arikel van 2008:

But most site owners whom I hear worrying about duplicate content aren’t talking about scraping or domain farms; they’re talking about things like having multiple URLs on the same domain that point to the same content.

Duplicate content penalty

Het antwoord is nee, je krijgt geen duplicate content penalty. Bovenstaande voorbeelden van duplicate content zijn, zoals Google het zelf zegt, niet misleidend bedoeld. In het artikel Demystifying the “duplicate content penalty” uit 2008 bevestigd Susan Moskwa van Google ook dat er geen penalty is:

Let’s put this to bed once and for all, folks: There’s no such thing as a “duplicate content penalty.” At least, not in the way most people mean when they say that.
There are some penalties that are related to the idea of having the same content as another site—for example, if you’re scraping content from other sites and republishing it, or if you republish content without adding any additional value. These tactics are clearly outlined (and discouraged) in our Webmaster Guidelines.

Inhoud kopiëren en op je eigen website plaatsen is dus niet toegestaan! In die gevallen kan Google dus wel een ‘penalty’ geven. Het artikel Dubbele inhoud in de Webmasterhulpprogramma’s over de penalty:

In de zeldzame gevallen waarin Google merkt dat dubbele inhoud wordt weergegeven met de bedoeling onze rangschikking te manipuleren en onze gebruikers te misleiden, zullen we ook de juiste aanpassingen aanbrengen in de indexering en rangschikking van de betreffende sites. Dit kan een nadelig effect hebben op de positie van de site of de site kan worden verwijderd uit de index van Google en daardoor niet meer in zoekresultaten worden weergegeven.

De conclusie is dat je als gewone webmaster bezig bent met je eigen website, je niet druk hoeft te maken over (een penalty voor) duplicate content. Het artikel uit 2008 van Susan Moskwa:

But most site owners whom I hear worrying about duplicate content aren’t talking about scraping or domain farms; they’re talking about things like having multiple URLs on the same domain that point to the same content. Like www.example.com/skates.asp?color=black&brand=riedell and www.example.com/skates.asp?brand=riedell&color=black. Having this type of duplicate content on your site can potentially affect your site’s performance, but it doesn’t cause penalties.

Uit het artikel over dubbele inhoud:

Dubbele inhoud op een site is geen reden om stappen tegen die site te ondernemen, tenzij het erop lijkt dat de dubbele inhoud is bedoeld om te misleiden en om de resultaten van zoekmachines te manipuleren. Als uw site problemen heeft met dubbele inhoud … kiezen wij de versie van de inhoud die in onze zoekresultaten wordt weergegeven.

Google weet dus zelf al goed om te gaan met duplicate content door de juiste versie te kiezen die getoont zal worden in de zoekresultaten. Verder in dit artikel leggen we uit dat dit niet helemaal waterdicht is en het dus verstandig is om Google vooral zelf goed te vertellen welke URL je op wilt laten nemen in de zoekresultaten.

Wat is geen duplicate content?

In het eerder genoemde artikel uit 2006 worden ook nog twee voorbeelden aangedragen wat Google niet ziet als duplicate content, namelijk eenzelfde artikel in verschillende talen en het kopiëren van kleine stukjes tekst (zoals quotes in dit artikel).

Though we do offer a handy translation utility, our algorithms won’t view the same article written in English and Spanish as duplicate content. Similarly, you shouldn’t worry about occasional snippets (quotes and otherwise) being flagged as duplicate content.

Waarom is duplicate content belangrijk voor Google?

In alle gevallen waar er sprake is van duplicatie content zonder opzet, probeert Google de beste URL weer te geven in de zoekresultaten. Andere URL’s die verwijzen naar dezelfde content filtert Google uit de zoekresultaten. Zoekmachines, waaronder Google, willen immers de beste resultaten weergeven voor een zoekopdracht. Tien resultaten via verschillende URL’s die feitelijk allemaal dezelfde pagina zijn is dus niet de bedoeling! Dat is ook de reden waarom duplicate content voor Google zo belangrijk is.

Uit het artikel van 2006:

Why does Google care about duplicate content?
Our users typically want to see a diverse cross-section of unique content when they do searches. In contrast, they’re understandably annoyed when they see substantially the same content within a set of search results. Also, webmasters become sad when we show a complex URL (example.com/contentredir?value=shorty-george〈=en) instead of the pretty URL they prefer (example.com/en/shorty-george.htm).

Uit het artikel van 2008:

Most search engines strive for a certain level of variety; they want to show you ten different results on a search results page, not ten different URLs that all have the same content.

Uit het Webmasterhulpprogramma artikel over dubbele inhoud:

Google streeft ernaar pagina’s met verschillende gegevens te indexeren en weer te geven. Dit betekent bijvoorbeeld dat als uw site een ‘normale’ versie en een ‘printerversie’ van elk artikel bevat en geen van beide is geblokkeerd met een noindex-metatag, we een van beide weergeven.

Wat doet Google met duplicate content?

Google heeft een algoritme gemaakt om duplicate URL’s uit de zoekresultaten te weren, en ons als gebruikers dus van de beste unieke resultaten te kunnen voorzien. In onderstaande quote uit het eerder genoemde artikel van 2008 wordt uitgelegd hoe het algoritme werkt.

Google tries to filter out duplicate documents so that users experience less redundancy. You can find details in this blog post, which states:

  1. When we detect duplicate content, such as through variations caused by URL parameters, we group the duplicate URLs into one cluster.
  2. We select what we think is the “best” URL to represent the cluster in search results.
  3. We then consolidate properties of the URLs in the cluster, such as link popularity, to the representative URL.

Waarom duplicate content belangrijk is voor webmasters

Nu we weten dat Google zelf al stappen onderneemt om duplicate content te filteren uit het zoekresultaten, zou je bijna denken dat je als webmaster geen stappen meer hoeft te ondernemen. In hetzelfde artikel uit 2008 legt Google echter uit hoe duplicate content vervelend kan uitpakken voor webmasters:

Here’s how this could affect you as a webmaster:
In step 2, Google’s idea of what the “best” URL is might not be the same as your idea. If you want to have control over whether www.example.com/skates.asp?color=black&brand=riedell or www.example.com/skates.asp?brand=riedell&color=black gets shown in our search results, you may want to take action to mitigate your duplication. One way of letting us know which URL you prefer is by including the preferred URL in your Sitemap.
In step 3, if we aren’t able to detect all the duplicates of a particular page, we won’t be able to consolidate all of their properties. This may dilute the strength of that content’s ranking signals by splitting them across multiple URLs.

Het probleem met stap 2 werd ook al eens beschreven in het artikel uit 2006:

so in the vast majority of cases, the worst thing that’ll befall webmasters is to see the “less desired” version of a page shown in our index.

Als er op jouw website dus sprake is van duplicate content, dan geven de mogelijke problemen met stap 2 en stap 3 al voldoende aanleiding om Google zelf te gaan vertellen:

  • welke URL’s dubbele inhoud bevatten;
  • en welk van deze URL’s dan de voorkeur heeft om opgenomen te worden in de zoekresultaten.

Dit voorkomt dat Google het duplicate content probleem niet helemaal oplost zoals je dat als webmaster zou wensen.

Verder in het artikel wordt nog een ander interessant nadeel van duplicate content benoemd. Google moet namelijk wel elke URL crawlen om er achter te komen dat het duplicate content is! Dat kost bandbreedte op je website.

Lastly, consider the effect that duplication can have on your site’s bandwidth. Duplicated content can lead to inefficient crawling: when Googlebot discovers ten URLs on your site, it has to crawl each of those URLs before it knows whether they contain the same content (and thus before we can group them as described above). The more time and resources that Googlebot spends crawling duplicate content across multiple URLs, the less time it has to get to the rest of your content.

Dit betekent echter niet dat je de Googlebot de toegang tot crawlen van duplicate content moet ontzeggen, maar zoals hierboven reeds gezegd wel Google goed kunt informeren. Uit het artikel inzake dubbele inhoud:

Google raadt u af de crawlertoegang tot dubbele inhoud op uw website te blokkeren, hetzij met een robots.txt-bestand of met andere methoden. Als zoekmachines pagina’s met dubbele inhoud niet kunnen crawlen, kunnen ze niet automatisch detecteren dat deze URL’s naar dezelfde inhoud wijzen en behandelen ze deze pagina’s als afzonderlijke, unieke pagina’s. Een betere oplossing is toestaan dat zoekmachines deze URL’s crawlen, maar de URL’s markeren als duplicaten door het linkelement rel=”canonical”, het hulpprogramma voor URL-parameterbehandeling of 301-omleidingen te gebruiken. In gevallen waar dubbele inhoud tot gevolg heeft dat we teveel van uw website crawlen, kunt u ook de instelling voor de crawlsnelheid aanpassen in Webmasterhulpprogramma’s.

In de loop van dit artikel zijn er al diverse mogelijkheden benoemd om Google te vertellen welke URL opgenomen moet worden in de zoekresultaten, of welke URL’s genegeerd kunnen worden bij het crawlen. Meer informatie over de verschillende manieren om Google te laten weten wat je voorkeurs-ULR (ook wel canonieke URL genoemd) vind je in het artikel over ‘Canonieke URL’s’.

Duplicate content video’s

Heel veel mensen blijven vragen stellen over duplicate content. En gelukkig blijft Matt Cutts de vragen beantwoorden. Een geweldige bron van Matt Cutts video’s kun je vinden op The ShortCutts website. Zoek daar op duplicate content en je vindt er diverse video’s met vragen en antwoorden. Een aantal vindt ik de moeite waard om hier te plaatsen.

In onderstaande video krijgt Matt Cutts de vraag of het een probleem is dezelfde productspecificaties op je productpagina te hebben staan als vele andere webwinkels. Het antwoord is dat dit niet erg is. Bijvoorbeeld de specificaties van een laptop zijn nou eenmaal altijd hetzelfde. Je moet er echter wel voor zorgen dat de rest van je pagina afwijkt ten opzichte van de andere websites. Zorg dus voor een unieke productomschrijving bijvoorbeeld. Waarom zou Google jouw anders hoger moeten ranken dan alle andere websites moet je jezelf afvragen.

Ben je er nog niet van overtuigd dat je echt een unieke productomschrijving moet gebruiken voor jouw productpagina’s? Hier beantwoord Matt Cutts de vraag of dezelfde productomschrijving gebruiken als op andere webwinkels gezien kan worden als duplicate content. Het antwoord is natuurlijk ‘ja’.

In het geval er verschillende URL’s naar dezelfde pagina verwijzen, is het canonical element een manier om Google een hint te geven welke pagina opgenomen moet worden in de zoekresultaten. In onderstaande video geeft Matt Cutts meer uitleg over het gebruik van het canonical element.

Maakt je webwinkel gebruik van automatisch genereerde URL-parameters, dan kun je Google vertellen welke parameters genegeerd kunnen worden. Je bespaart hiermee bandbreedte en Google kan meer aandacht besteden aan het crawlen van URL’s die er echt toe doen in plaats van het crawlen van duplicate content. In onderstaande video meer uitleg over het gebruik van URL-parameters in Google Webmaster Tools.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *