(modifié le 4 novembre 2014 à 20:27)

Le duplicate content est très mauvais pour votre site/blog, c'est un paramètre à ne pas négliger pour un bon référencement naturel.

Quelques rappels

Définition : le duplicate-content c'est la présence sur le web d'une même page sur plusieurs URL, lorsque l'on vous plagie par un vilain copier-coller par exemple (sans demander votre avis biensûr); mais également d'une même page accessible par plusieurs adresses différentes sur un même site : http://monsite.fr/mapage.php&p=1 avec http://monsite.fr/mapage.php?p=1&coucou.

Les moteurs de recherche n'aiment pas la redondance d'information et n'indexent qu'une seule fois l'information. Ils doivent donc faire le tri et trouver la page originale...

C'est comme ça que vous vous retrouvez avec certains Digg (paperblog, technoblog pour ne pas les citer) qui reprennent un des vos billets qui ressortent avant votre propre blog dans les résultats Google ! Il est d'ailleurs souvent impossible de retomber sur votre page originale dans les résultats, sauf en tappant certains mots clés précis ou bien en précisant le domaine (site:http://mosite.fr mes mots clés).

Lorsque plusieurs sites proposent une page identique, Google va tout simplement définir le site qui a le plus haut pagerank comme site original, voilà pourquoi les Digg vous passe souvent devant !

Cette page originale est appelée : URL canonique.

Il existe trois cas de duplicate-content :

  1. Pages identiques (mirroir) à l'octet près : c'est la page au plus fort pagerank qui sera indexée en tête. Origines possibles des variables passées en GET : id de session, tracker, design alternatif...
  2. Pages similaires mais comportant les balises <TITLE> et <DESCRIPTION> différentes : les pages considérées comme des copies seront visibles en cliquant sur "relancer la recherche en incluant les pages ignorées"
  3. Pages différentes comportant les mêmes balises <TITLE> et <DESCRIPTION> : même si le contenu est différent, Google va indexer la page la plus pertinente à ses yeux et la placer prioritaire au niveau des résultats. Il peut même arriver que les pages considérées comme des copies soit désindexées.

La principale cause du duplicate-content reste l'utilisation d'adresse composées de paramètres GET qui sont récupérés en variable ensuite (php, asp, etc.).

La solution proposée par Google

Dans