"Duplicate content" ou "Pages similaires"

campagne · 14 Avril 2006

Bonjour,

voici mon avis sur quelque chose qu'on entend souvent : tout le monde a tendance à dire qu'il y a "Duplicate content" (duplication de contenu) pour un peu toutes les redondances de texte qu'on va trouver entre deux pages ou deux sites.

À mon avis donc, il y a deux notions à ne pas confondre :

Duplicate content = on arrive sur les mêmes infos par deux entrées différentes, quand une page a deux urls par exemple, ou quand un site a plusieurs noms de domaine, ou quand un site est copié collé sur un autre serveur... Dans ce cas, Google va prendre une url officielle et déconsidérer les autres.

Pages similiaires = On a une part de texte ou de contenu en général qui est identique entre plusieurs pages, surtout en haut du code des pages : par exemple on a la même balise meta description sur toutes les pages d'une rubrique. Ou on a le même texte introductif sur plusieurs pages. Ou on a le même contenu avec un habillage différent des pages.

Dans ce cas, Google va prendre en compte une page qui lui parait la plus pertinente, et il va déconsidérer les autres et même les désindexer. J'ai remarqué que c'est le cas pour les descriptions identiques, si le reste de la pages est complètement différent ainsi que la balise title, peu lui importe ! Ce problème est donc plus facile à contourner que le duplicate content...

zapman · 14 Avril 2006

Dans le premier cas que tu décrit, il y a une similitude de 100% entre 2 pages.

Dans le deuxième cas, il y a "une certaine similitude" entre 2 pages.

Le terme de Duplicate Content est couramment utilisé dans les 2 cas et ne peut pas être qualifié d'"incorrect" dans un cas ou dans l'autre. Après tout, sa traduction littérale correspond à "contenu dupliqué", et c'est bien de ça qu'il s'agit dans les deux cas.

Cela dit, ta distinction est pleine d'intérêt car elle rappelle qu'on peut aboutir à un problème de Duplicate Content pour deux raisons bien distinctes.

Le premier des cas que tu cites est associé au doux nom de "Canonical URL" ou "URL canonique". Annuaire-info consacre une page très intéressante à ce terme. En voici un petit extrait :

Différentes techniques existent pour mesurer la similarité de pages web. Dans le contexte de l'URL canonique, nous nous intéressons seulement au cas où la similarité est totale : si exactement le même contenu correspond à plusieurs adresses différentes, un moteur de recherche comme Google l'affichera une seule fois en mentionnant seulement l'adresse qu'il considérera être l'URL canonique.

Dans le deuxième cas que tu cites, tu dis :

on a le même contenu avec un habillage différent des pages.
Dans ce cas, Google va prendre en compte une page qui lui parait la plus pertinente, et il va déconsidérer les autres et même les désindexer.

A ma connaissance, le fait que Google retire purement et simplement une page de l'index n'est jamais associé aux "pages similaires". Cela ne peut se produire que lorsque 2 pages sont absolument identiques et qu'il attribue une URL canonique à ce groupe de pages.

En cas de pages similaires mais non identiques, Google va classer les doublons en "résultats complémentaires" : les pages sont toujours indexées mais ne figurent plus dans les résultats, sauf si on fait une recherche sur la partie de texte qu'elles sont seules à contenir.

Je ne suis pas certain que ce problème soit plus facile à contourner que celui des URLs canoniques, car il peut arriver qu'un site à fort PR vole du contenu (recopie sans autorisation et sans citer sa source) à un site à faible PR, auquel cas Google va citer le voleur au lieu de citer l'auteur qui se retrouvera classé en "résultats complémentaires". Que peut faire la victime, dans ce cas ?

Même lorsque le copieur cite sa source, il peut figurer dans les résultats à la place de l'auteur. Il est regrettable que Google ne gère pas ce type de problème qui semble pourtant simple à résoudre !

Modifié 14 Avril 2006 par zapman

**Cariboo** · 14 Avril 2006

campagne, tu as raison de faire la distinction : le problème des pages similaires et le duplicate content à cause de deux url qui pointent vers la même chose, c'est bien deux choses différentes...

Par contre, je rappelle au passage que les pages "similaires" posent un autre problème, pas toujours bien connu et identifié, c'est au niveau du crawl... Il faut rappeler à ce stade qu'une Url peut être connue de Google, et peut même apparaître dans l'index, sans avoir été entièrement crawlée ! Le résultat est une entrée sous la forme d'une url brute sans description... Ces urls souvent ne sont visibles que si on affiche les pages ignorées (filter=0).

Depuis deux ans, la technique de crawl de Google est de ne prendre que les url qu'il estime "utile". Quand on a des pages de catalogue, des pages d'annuaires, ou de manière générale des pages dynamiques construites de manière identique, on peut se retrouver fréquemment avec des pages soit franchement pas crawlées du tout (site jugé peu important, avec des pages avec un faible pagerank notamment), soit crawlées beaucoup moins souvent (ce qui fait qu'on se retrouve régulièrement avec des pages sans description)...

Le résultat, le plus souvent, c'est qu'au mieux un prototype de la page est indexé, le reste apparait clusterisé (résultat ignoré). Pourquoi ? Parce que Google détecte des centaines, des milliers de pages jugées similaires, et qu'il estime que cela ne sert à rien de stocker des milliers de pages contenant la même information. Et que c'est encore moins utile de les montrer dans l'index. Ces "catalogues", à terme, ne sont plus crawlés que de manière épisodique, et/ou partiellement.

Comment éviter cela : faire des pages moins mécaniques, et penser à rajouter du contenu texte dans chaque page...

Nota Bene : la technique de crawl vient encore de changer avec BigDaddy, il sera intéressant de voir si cela change à nouveau.

yep · 14 Avril 2006

Définition de l'URL canonique (canonical URL)

Mon dictionnaire indique que canonique signifie conforme aux règles, à la norme. Dans les forums américains consacrés au référencement, on entend parler d'URL canonique.

Nous dirons qu'une adresse web est une URL canonique quand elle est l'adresse officielle d'une page web, celle qu'il est préférable d'utiliser pour accéder au contenu correspondant.

Je tiens toutefois à rappeler qu'au départ, une seule URL doit seulement pointer vers une ressource et réciproquement, une ressource ne doit être accessible que par une seule URL.

Merci l'accessibilité. Si cela est respecté, le terme d'URL canonique est amené à disparaître.

Vous parlez de duplicate content et de pages similaires, les deux notions sont bien distinctes. Connaissez-vous cependant la différence entre les pages dites "similaires" et les pages dites "ignorées" sur Google ? parce que j'ai pu remarqué que ces pages ignorées ne le sont pas toujours parce qu'elles sont similaires.

Modifié 14 Avril 2006 par yep

zapman · 14 Avril 2006

Je tiens toutefois à rappeler qu'au départ, une seule URL doit seulement pointer vers une ressource et réciproquement, une ressource ne doit être accessible que par une seule URL.

<{POST_SNAPBACK}>

C'est justement parce que cette belle théorie n'est pas (et ne sera jamais) tout à fait respectée que Google a mis en place le principe de l'URL canonique. Que ce soit par la faute des hackers ou par la simple maladresse de certains webmasters, les duplicatas de pages existeront toujours.

campagne · 14 Avril 2006

Merci pour vos réflexions qui sont toutes très intéressantes !

Je me permets d'insister sur l'importance d'une balise meta description différente pour chaque page pour éviter la similitude avec les autres : j'ai vraiment l'impression que google s'en sert en premier lieu et ne va pas vraiment plus loin pour vérifier la similarité, qu'en pensez-vous ?

C'est vrai que le problème des pages similaires est qu'elles sont souvent non pas "désindexées" mais ignorées, et qu'à terme, seule l'url de la page apparait dans les résultats.

Connaissez-vous cependant la différence entre les pages dites "similaires" et les pages dites "ignorées" sur Google ? parce que j'ai pu remarqué que ces pages ignorées ne le sont pas toujours parce qu'elles sont similaires.

<{POST_SNAPBACK}>

Yep, peux-tu développer un peu cette remarque sur les pages ignorées pas toujours parce qu'elles sont similaires ?

Connexion

"Duplicate content" ou "Pages similaires"

Sujets conseillés

campagne

Lien vers le commentaire

Partager sur d’autres sites

zapman

Lien vers le commentaire

Partager sur d’autres sites

Cariboo

Lien vers le commentaire

Partager sur d’autres sites

yep

Lien vers le commentaire

Partager sur d’autres sites

zapman

Lien vers le commentaire

Partager sur d’autres sites

campagne

Lien vers le commentaire

Partager sur d’autres sites

Veuillez vous connecter pour commenter

Parcourir

Activité