(modifié le 4 novembre 2014 à 20:27)

Le duplicate content est très mauvais pour votre site/blog, c'est un paramètre à ne pas négliger pour un bon référencement naturel.

Quelques rappels

Définition : le duplicate-content c'est la présence sur le web d'une même page sur plusieurs URL, lorsque l'on vous plagie par un vilain copier-coller par exemple (sans demander votre avis biensûr); mais également d'une même page accessible par plusieurs adresses différentes sur un même site : http://monsite.fr/mapage.php&p=1 avec http://monsite.fr/mapage.php?p=1&coucou.

Les moteurs de recherche n'aiment pas la redondance d'information et n'indexent qu'une seule fois l'information. Ils doivent donc faire le tri et trouver la page originale...

C'est comme ça que vous vous retrouvez avec certains Digg (paperblog, technoblog pour ne pas les citer) qui reprennent un des vos billets qui ressortent avant votre propre blog dans les résultats Google ! Il est d'ailleurs souvent impossible de retomber sur votre page originale dans les résultats, sauf en tappant certains mots clés précis ou bien en précisant le domaine (site:http://mosite.fr mes mots clés).

Lorsque plusieurs sites proposent une page identique, Google va tout simplement définir le site qui a le plus haut pagerank comme site original, voilà pourquoi les Digg vous passe souvent devant !

Cette page originale est appelée : URL canonique.

Il existe trois cas de duplicate-content :

  1. Pages identiques (mirroir) à l'octet près : c'est la page au plus fort pagerank qui sera indexée en tête. Origines possibles des variables passées en GET : id de session, tracker, design alternatif...
  2. Pages similaires mais comportant les balises <TITLE> et <DESCRIPTION> différentes : les pages considérées comme des copies seront visibles en cliquant sur "relancer la recherche en incluant les pages ignorées"
  3. Pages différentes comportant les mêmes balises <TITLE> et <DESCRIPTION> : même si le contenu est différent, Google va indexer la page la plus pertinente à ses yeux et la placer prioritaire au niveau des résultats. Il peut même arriver que les pages considérées comme des copies soit désindexées.

La principale cause du duplicate-content reste l'utilisation d'adresse composées de paramètres GET qui sont récupérés en variable ensuite (php, asp, etc.).

La solution proposée par Google

Dans un billet sur le blog Webmaster Central de Google datant de quelques jours était annoncée une solution permettant d'éradiquer (ou plutôt limiter) ce phénomène.

La balise <link> devra être placée dans l’entête des pages web dupliquées indiquant la page d’origine (canonique) :

<link rel="canonical" href="http://www.monsite.fr/product.php?item=blogmotion" />

Google comprendra que cette page web est une duplication d’une autre page, il faut donc placer cette balise sur toutes les pages à contenu similaire ou dupliqué. Le chemin de l'url canonique peut aussi bien être relatif que absolu.

Le cas de WordPress

Si vous utilisez l'url rewrite (réécriture d'adresse) sur votre blog WordPress, alors vous êtes pratiquement à l'abri des duplicate sur votre domaine. J'entends par là que le risque d'accès à une même page via des adresses différentes est faible, je ne parle pas des sites qui vous plagient 😉

Par contre si vous utilisez la configuration des adresses par défaut de WordPress vous êtes totalement sujet au duplicate (Réglages > Permaliens) :

Le plugin WordPress Seo No Duplicate (fortement inspiré du plugin WP-canonical de Yoast) va faire le boulot à votre place en insérant cette balise là où il faut 🙂

Vous n'aimez pas les plugin ? voici le code à insérer dans le fichier fonctions.php de votre thème :

function set_canonical() {
  if ( is_single() or is_page() ) {
    global $wp_query;
    echo '
';
  }
}
add_action('wp_head', 'set_canonical');

Ce code ne remplace pas le plugin car il ne fonctionnera que sur les types de pages reconnus, je vous conseille donc fortement d'installer le plugin Seo No Duplicate (forcez-vous).

Conclusion

Ah ces fameux duplicate n'ont pas fini de faire parler d'eux ! mais je trouve que l'initiative de Google est intéressante et permettra (je l'espère) de limiter la redondance d'information lors de nos recherches.

Et vous, vous en pensez quoi de tout ça ?

Auteur : Mr Xhark

Fondateur du blog et passionné par les nouvelles techno, suivez-moi sur twitter