Limitez le duplicate content de votre blog sur Google

Fév 17 2009

Limitez le duplicate content de votre blog sur Google

Dév 13

(3 vote(s), 5,00/ 5)

(modifié le 4 novembre 2014 à 20:27)

Le duplicate content est très mauvais pour votre site/blog, c'est un paramètre à ne pas négliger pour un bon référencement naturel.

Quelques rappels

Définition : le duplicate-content c'est la présence sur le web d'une même page sur plusieurs URL, lorsque l'on vous plagie par un vilain copier-coller par exemple (sans demander votre avis biensûr); mais également d'une même page accessible par plusieurs adresses différentes sur un même site : http://monsite.fr/mapage.php&p=1 avec http://monsite.fr/mapage.php?p=1&coucou.

Les moteurs de recherche n'aiment pas la redondance d'information et n'indexent qu'une seule fois l'information. Ils doivent donc faire le tri et trouver la page originale...

C'est comme ça que vous vous retrouvez avec certains Digg (paperblog, technoblog pour ne pas les citer) qui reprennent un des vos billets qui ressortent avant votre propre blog dans les résultats Google ! Il est d'ailleurs souvent impossible de retomber sur votre page originale dans les résultats, sauf en tappant certains mots clés précis ou bien en précisant le domaine (site:http://mosite.fr mes mots clés).

Lorsque plusieurs sites proposent une page identique, Google va tout simplement définir le site qui a le plus haut pagerank comme site original, voilà pourquoi les Digg vous passe souvent devant !

Cette page originale est appelée : URL canonique.

Il existe trois cas de duplicate-content :

Pages identiques (mirroir) à l'octet près : c'est la page au plus fort pagerank qui sera indexée en tête. Origines possibles des variables passées en GET : id de session, tracker, design alternatif...
Pages similaires mais comportant les balises <TITLE> et <DESCRIPTION> différentes : les pages considérées comme des copies seront visibles en cliquant sur "relancer la recherche en incluant les pages ignorées"
Pages différentes comportant les mêmes balises <TITLE> et <DESCRIPTION> : même si le contenu est différent, Google va indexer la page la plus pertinente à ses yeux et la placer prioritaire au niveau des résultats. Il peut même arriver que les pages considérées comme des copies soit désindexées.

La principale cause du duplicate-content reste l'utilisation d'adresse composées de paramètres GET qui sont récupérés en variable ensuite (php, asp, etc.).

La solution proposée par Google

Dans un billet sur le blog Webmaster Central de Google datant de quelques jours était annoncée une solution permettant d'éradiquer (ou plutôt limiter) ce phénomène.

La balise <link> devra être placée dans l’entête des pages web dupliquées indiquant la page d’origine (canonique) :

<link rel="canonical" href="http://www.monsite.fr/product.php?item=blogmotion" />

Google comprendra que cette page web est une duplication d’une autre page, il faut donc placer cette balise sur toutes les pages à contenu similaire ou dupliqué. Le chemin de l'url canonique peut aussi bien être relatif que absolu.

Le cas de WordPress

Si vous utilisez l'url rewrite (réécriture d'adresse) sur votre blog WordPress, alors vous êtes pratiquement à l'abri des duplicate sur votre domaine. J'entends par là que le risque d'accès à une même page via des adresses différentes est faible, je ne parle pas des sites qui vous plagient 😉

Par contre si vous utilisez la configuration des adresses par défaut de WordPress vous êtes totalement sujet au duplicate (Réglages > Permaliens) :

Le plugin WordPress Seo No Duplicate (fortement inspiré du plugin WP-canonical de Yoast) va faire le boulot à votre place en insérant cette balise là où il faut 🙂

Vous n'aimez pas les plugin ? voici le code à insérer dans le fichier fonctions.php de votre thème :

function set_canonical() {
  if ( is_single() or is_page() ) {
    global $wp_query;
    echo '
';
  }
}
add_action('wp_head', 'set_canonical');

Ce code ne remplace pas le plugin car il ne fonctionnera que sur les types de pages reconnus, je vous conseille donc fortement d'installer le plugin Seo No Duplicate (forcez-vous).

Conclusion

Ah ces fameux duplicate n'ont pas fini de faire parler d'eux ! mais je trouve que l'initiative de Google est intéressante et permettra (je l'espère) de limiter la redondance d'information lors de nos recherches.

Et vous, vous en pensez quoi de tout ça ?

13 commentaires

Michael - @pyrou 18 février 2009 à 13h22

Bon article, si ce n'est que tu diabolises le "très mauvais" duplicate content, alors qu'il n'est plus autant préjudiciable qu'il y a quelques années (je parle d'un duplicate sur un même domaine bien entendue) 😉

Petites précisions :

- duplicate-content : copie sur plusieurs urls, pas forcement plusieurs "sites"
- c'est ?p=1 et non &p=1 pour le premier paramètre
- j'aime pas trop le code php à inséré, avec lui tu te retrouve sur la "bonne" page faisant un lien canonique vers elle même. Bien sûr Google est pas con j'imagine.. mais bon.. ça reste con - la solution a enfaite été proposée par un consortium yahoo/live/google, pas de propriété intellectuelle donc pour l'un plus que pour les deux autres 🙂

Il est donc ainsi utile de préciser que la solution fonctionne donc sur les trois plus grands moteurs de recherches européens.

Répondre

Mr Xhark 18 février 2009 à 13h44

@Michael : j'ai corrigé l'url et quelques fautes d'inattention

Pour le coté "méchant" duplicate, en fait je prend blogmotion comme exemple car pas mal de Digg m'empêche d'être indexé correctement ^^

Et oui cela fonctionne sur les trois plus grand moteurs, non pas européens mais mondiaux 🙂

Répondre

Emmanuel 19 février 2009 à 13h59

J'ai eu vent de cet article mais sauf erreur ça marche pour le duplicated content à l'intérieur d'un site et non entre des sites différents non?

Répondre

Mr Xhark 19 février 2009 à 17h49

@Emmanuel : tout à fait, cette solution permet de traiter le duplicate sur un même domaine. Si vous possédez plusieurs domaines il faut passer par une redirection 302 pour orienter les visiteurs (et les robots) vers le domaine "central".

Répondre

infoslibres.fr/ 21 février 2009 à 21h24

Merci pour cet article intéressant. Je vais testé le plugin SEO No Duplicate.

Répondre

Marc 22 juillet 2010 à 12h23

Oui c'est ça, a pas confondre avec le duplicate content sur d'autre site qui lui est mortelle pour un site.
Surtout si c'est des dizaines voir centaines de fois comme sur des annuaires par exemple.
A éviter.

Répondre

Maximilien - @maximilien912 23 juillet 2010 à 12h50

Très bon article, merci d'avoir clarifié certains points qui me paraissaient encore sombres. Je vais tester de ce pas le plugin SEO pour mes blogs WP !

Répondre

Affiliation ebook - @dom 21 avril 2011 à 14h25

Bonjour,

Merci pour cet article très intéressant et les précisions s'est toujours bon de mieux connaître comment fonctionne les moteurs de recherches pour avoir un meilleur référencement je vais essayé ce plugin tout de suite.

A bientôt
Dominique

Répondre

Agence de com 19 octobre 2011 à 17h09

La solution proposée par Google est-elle aussi valable sur Yahoo, Bing, etc.. ?

Répondre

stand parapluie 28 novembre 2011 à 11h26

J'ai lu qu'avec cette méthode, on pouvait voler le PageRank d'un site concurrent ? Info ou Intox ?

Répondre

[modéré] 11 janvier 2012 à 18h28

Article très intéressent, du coup faut-il obligatoirement remplir le champs "Override this post's canonical URL with:" lorsque l'on ajout un article sur WordPress? merci.

Répondre

Olivier - @e_c3m 27 janvier 2013 à 17h46

Merci pour cet article, une question me vient, peut on lutter contre le duplicate content avec des digg like en utilisant des plugin du type : Canonical URL’s ou WordPress No-Duplicate ?

Répondre

Blog Tech