Duplicate Content ?

Lordzener · 11 Mars 2008

Bonjour,

J'ai une petite question au niveau du duplicate content, vous pouvez voir sur mon site www.larondedesfromages.com une liste d'articles, ils sont donc accessible via l'adresse www.larondedesfromages.com/page-X.html, mais on peux aussi accéder à chacun d'eux en cliquant sur le titre ce qui donne www.larondedesfromages.com/XX-Titre-de-l-article .

J'ai fait cela en vue de tronquer (bientôt) les articles au bout d'une certaine longueur sur la page de listage pour pouvoir en mettre plus (d'articles) sans avoir une page trop longe et d'y adjoindre un lien "Lire la suite >".

J'aurais voulu savoir si celà était considéré comme du duplicate content et si je devais faire en sorte que les page-X.html ne soient pas référencées ?

Merci d'avance

touchcream · 11 Mars 2008

Non il n'y a pas d'histoire de duplicate content ou quoi que ce soit.

D'ailleurs sur dotclear comme sur Wordpress (je ne sais pas lequel tu utilise mais il me semble que tu utilise un des deux) il est possible de tronquer les billets via l'administration donc ...

Lordzener · 11 Mars 2008

Non je n'utilise aucun des deux, j'ai tout codé moi même et j'en suis plutôt fier ! (D'ailleurs ça me flatte que tu penses que ça soit une base dotclear ou wordpress!)

Si tu dis que ça n'a rien à voir tant mieux, je coderais le tronquage des articles très bientôt !

Damien_ · 11 Mars 2008

Je vais peut -être dire une bêtise mais je crois que google vérifie si des pages sont exactement pareil. Si google trouve 2 pages identiques sur un même site (contenu + url) alors il choisit d'indexer celle ayant le meilleur pagerank.

Si entre les 2 pages identiques les balises descriptions et title varient, google peut decider de quand même la réferencer mais elle ne s'affichera quand ajoutant les pages ignorées dans google.

zapman · 11 Mars 2008

Quoi qu'il en soit, et contrairement à une fausse idée beaucoup trop répandue, Google n'applique PAS de pénalité pour cause de Duplicate Content.

Il se débrouille juste pour que les sites de soient pas sur-représentés dans les résultats. Cela ne porte absolument pas préjudice aux sites concernés et remet juste les pendules à l'heure.

Même si ta méthode entraine un phénomène de Duplicate Content, tu n'as donc pas à craindre de conséquences négatives.

Tu trouveras plus de détail sur le http://www.rankspirit.com/duplicate-content.php , si le tu souhaites.

Modifié 11 Mars 2008 par zapman

Lordzener · 12 Mars 2008

Merci bien !

**Magicoyo** · 12 Mars 2008

Je plussoie BLman, avec une nuance : Il peut arriver dans la résolution du Duplictate Content, que Google ne choisisse pas l'URL ou le domaine sur lequel on souhaitait nous travailler.

J'ai l'exemple d'un site qui avait reçu un bon BL des PagesHubs sur http://example.com, au lieu de http://www.example.com. Ca a suffit pour basculer le www en duplicate, alors qu'il y avait un travail de ref et de communication en cours sur cette URL.

J'ai du demander à Dan de bien vouloir corriger l'URL, ce qu'il a fait prestement. Ca a corrigé le problème en quelques semaines.

zapman · 12 Mars 2008

... http://example.com, au lieu de http://www.example.com...

Là, il semble sagir d'un problème URL canonique (des pages trés exactement identiques peuvent être atteintes par 2 URLs différentes). Je n'ai pas fait d'expérimentations sur ce point mais la théorie affirme que Google regroupe les PR et/ou tout autre résultat de référencement sur l'URL qu'il choisit comme URL canonique (principale), sans perte d'aucune sorte pour le site concerné.

Encore un fois, le comportement de Google ne s'apparente donc pas à une pénalité mais à une simple précaution pour éviter une sur-représentation du site dans les résultats.

On peut indiquer à Google quelle URL choisir en faisant des 301 de toutes les autres URLs vers celle que l'on veut désigner comme URL principale

Pour plus de détail : http://www.annuaire-info.com/google-url-canonique.html

Jan · 12 Mars 2008

Un problème d'URL canonique entraine un problème de "contenu dupliqué". 2 URLs distinctes renvoient le même contenu.

La théorie voudrait effectivement que Google ne garde que la page originale, la première à avoir été publiée (ou crawlée) ou celle qui possède le plus de liens. Ceci dans le but d'éliminer les "scrapers", sites faits de copie pirates que Google considère comme "pollueurs" de son index.

Dans la pratique, comme le dit Magic, il arrive que Google garde la copie et déclasse l'original, comme ça se produit aussi avec les redirections 302.

Dans le cas d'un duplicate content interne, comme celui de Lordzener, ça peut sembler sans importance. Qu'importe l'URL choisie par Google, après tout les 2 font partie du site.

Sauf que:

- Si Google fait le mauvais choix, à savoir qu'il choisit l'URL qui a très peu de backlinks (parfois un seul) au détriment de l'URL que souhaitait faire indexer le webmaster (et qui a donc en général plus d'un backlink, interne ou externe), la page indexée par Google peut à terme finir dans son "index complémentaire" faute de backlinks, et perdre ainsi toute visibilité dans Google.

- Si l'on considère que les sites "scrapers" sont une menace de première importance pour la pertinence de Google, et que le filtrage du "contenu dupliqué" est l'un seul moyen qu'a Google de les combattre, on ne peut exclure qu'une des prochaines releases du filtre pénalise (volontairement ou pas) les sites qui auront trop d'urls en duplicate content.

On n'est jamais trop prudent avec le duplicate content. Beaucoup de sites en ont fait l'expérience depuis plusieurs années (4?). Lordzener, il est préférable de régler le problème.

zapman · 13 Mars 2008

Merci beaucoup, Jan d'enrichir cette discussion par tes arguments. J'adore les dicussions un peu "pointues" sur ce sujet.

Un problème d'URL canonique entraine un problème de "contenu dupliqué". 2 URLs distinctes renvoient le même contenu.

La théorie voudrait effectivement que Google ne garde que la page originale, la première à avoir été publiée (ou crawlée) ou celle qui possède le plus de liens. Ceci dans le but d'éliminer les "scrapers", sites faits de copie pirates que Google considère comme "pollueurs" de son index.

Oui, mais pas seulement. De trés nombreux sites présentent à l'internautes et aux moteurs des pages ayant plusieurs URLs ou des pages ayant des contenus quasi-identiques. C'est par exemple le cas quand un site propose une version imprimable de son contenu.

Webmaster-Hub n'échappe pas à cette pratique : en faisant une recherche sur "Duplicate content inurl:webmaster-hub" , vous pourrez constater que le topic que nous sommes en train d'alimenter est présent plus d'une quinzaine de fois dans l'index de Google et ce parceque Webmaster-hub présente cette même page sous une quinzaine d'URLs différentes, ce qui est un cas assez féroce de Duplicate Content.

Je ne crois pas pour autant que le Hub soit victime d'une "pénalité" ou d'un effet négatif quel qu'il soit pour cette raison.

Sauf que:
- Si Google fait le mauvais choix, à savoir qu'il choisit l'URL qui a très peu de backlinks (parfois un seul) au détriment de l'URL que souhaitait faire indexer le webmaster (et qui a donc en général plus d'un backlink, interne ou externe), la page indexée par Google peut à terme finir dans son "index complémentaire" faute de backlinks, et perdre ainsi toute visibilité dans Google.

J'avoue encore une fois ne pas avoir fait d'expérimentation concernant la gestion des URLs canoniques, mais pour ce que j'en sais, le cas de figure que tu proposes n'aura pas la conséquence que tu supposes :

Même si l'URL choisie par Google est celle qui a peu de backlinks, elle bénéficie, en tant qu'URL canonique, de tous les backlinks créés sur les autres pages. Globalement, le nombre total de backlinks pris en considération n'a absolument pas changé. L'effet est en réalité positif pour le site concerné car il se retrouve avec une seule page "boostée" au lieu d'avoir ses backlinks "étalés" sur plusieurs page identiques.

- Si l'on considère que les sites "scrapers" sont une menace de première importance pour la pertinence de Google, et que le filtrage du "contenu dupliqué" est l'un seul moyen qu'a Google de les combattre, on ne peut exclure qu'une des prochaines releases du filtre pénalise (volontairement ou pas) les sites qui auront trop d'urls en duplicate content.

On n'est jamais trop prudent, en effet, mais là ça me semble plus proche d'une douce paranoïa que de la prudence car si Google s'orientait dans cette direction, plusieurs millions de sites seraient injustement pénalisés de façon trés importante. Je les vois d'autant plus mal commettre une erreur de ce genre que la gestion actuelle des URLs canonique et du Duplicate Content me semble particulièrement au point et efficace.

Pour tout dire, ce type de crise a déjà eu lieu lors d'une mise à jour baptisée "Allegra" en février 2005 mais elle était d'ampleur trés mesurée et Google a trés vite rectifié le tir. C'est sans doute à cette occasion qu'il a "peaufiné" sa gestion du Duplicate Content et il semble peu probable que les principes généraux de ce filtre soient beaucoup remis en cause à l'avenir (même si j'ai bien conscience de m'avancer beaucoup en disant ça).

Beaucoup de sites en ont fait l'expérience depuis plusieurs années (4?). Lordzener, il est préférable de régler le problème.

Depuis le temps que je me passionne pour ce sujet, j'attend toujours un exemple concret de "sites qui en ont fait l'expérience". Comme souvent, on met sur le dos du Duplicate Content tout un tas de choses qui n'ont rien à y voir.

La seule mesure de prudence qui me semble réaliste est celle que je rappelle dans ma page sur le sujet :

N'attribuez jamais le même titre et le même descriptifs (balises TITLE et DESCRIPTION) à plusieurs pages ayant des contenus distincts.

Pour peu que vos pages aient le même header, le même footer et le même menu (ce qui est à la fois normal et fréquent), le fait d'avoir le même titre et le même descriptif pourrait amener Google à les croire quasi-identiques. Moins les pages sont riches en contenu texte, plus le risque est important.

**Dadou** · 13 Mars 2008

Webmaster-Hub n'échappe pas à cette pratique : en faisant une recherche sur "Duplicate content inurl:webmaster-hub" , vous pourrez constater que le topic que nous sommes en train d'alimenter est présent plus d'une quinzaine de fois dans l'index de Google et ce parceque Webmaster-hub présente cette même page sous une quinzaine d'URLs différentes, ce qui est un cas assez féroce de Duplicate Content.
Je ne crois pas pour autant que le Hub soit victime d'une "pénalité" ou d'un effet négatif quel qu'il soit pour cette raison.

oui mais au final en cliquant sur les liens proposés par google, on se retrouve sur la même url (même si celle affiché par google en dessous du descriptif est radicalement différente) Le comportement de google me semble relativement étrange

Jan · 13 Mars 2008

Depuis le temps que je me passionne pour ce sujet, j'attend toujours un exemple concret de "sites qui en ont fait l'expérience". Comme souvent, on met sur le dos du Duplicate Content tout un tas de choses qui n'ont rien à y voir.

Il y a au moins un cas célèbre: le googlewash réalisé par la DarkSeoTeam sur le blog de Matt Cutts par recopie de son contenu: http://www.google.fr/search?hl=fr&rlz=...rcher&meta=

Google a corrigé le tir en quelques jours à l'époque.

Quant aux Googlewash par redirection 302, il sont carrément innombrables.

zapman · 14 Mars 2008

oui mais au final en cliquant sur les liens proposés par google, on se retrouve sur la même url (même si celle affiché par google en dessous du descriptif est radicalement différente) Le comportement de google me semble relativement étrange

Son comportement me semble au contraire normal :

- La recherche sur "Duplicate Content" ne renvoie qu'une seule copie de la page

- La même recherche renvoie toutes les URLs lorsque l'on clique sur "relancer la recherche en incluant les pages ignorées"

Ce comportement démontre que Google gère correctement le problème : le Hub n'est pas pénalisé par le procédé mais il n'est pas non plus "sur-représenté" dans les résultats. Quel que soit le nombre de duplicatas proposés par le site, une seule page figure dans les résultats, sauf si l'internaute demande à les voir toutes en incluant les pages ignorées.

Si "en cliquant sur les liens proposés par google, on se retrouve toujours sur la même url", comme tu le fais remarquer, c'est parce que Google considère que cette URL est l'URL canonique et qu'elle représente à elle seule toutes les autres variantes.

Il y a au moins un cas célèbre: le googlewash réalisé par la DarkSeoTeam sur le blog de Matt Cutts par recopie de son contenu: http://www.google.fr/search?hl=fr&rlz=...rcher&meta=
Google a corrigé le tir en quelques jours à l'époque.

Quant aux Googlewash par redirection 302, il sont carrément innombrables.

Haho, je n'ai pas été assez précis. Je voulais dire que le fait d'avoir un Duplicate Content interne (plusieurs pages du même site présentant un contenu identique) n'a jamais eu, à ma connaissance, de conséquence négative.

Le piratage, sous quelque forme que ce soit et bien entendu toujours possible. Il n'y malheureusement pas grand chose à faire pour se protéger des initiatives telles que celles que tu cites.

Et, histoire de pinailler, j'ajoute que les termes de "Googlewash" et "Googlewashing" ne me semble pas adaptés à la mésaventure de Matt Cutts. Ils sont généralement utilisés pour parler des définitions erronées diffusées sur le Net (faux dictionnaires).

Selon le site BuzzWhack

"googlewash: An effort by bloggers to change the meaning of a new word, term or phrase by peppering their Web logs with an alternate meaning. Result: A search using Google will turn up thousands of pages with the altered definition, while the pages carrying the original and intended usage get buried."

--> googlewash: tentative visant à modifier la signification d'un mot, d'un terme ou d'une phrase nouvelle (néologisme) par l'utilisation répétée d'une expression incorrecte dans des blogs. Résultat : une recherche à l'aide de Google sur l'expression concernée produit des centaines de pages comportant la définition incorrecte, les pages comportant la bonne définition se retrouvant noyées parmis les autres.

Je sais bien que le site threadwatch a utilisé ce mot dans le même sens que toi en titrant "Google's Matt Cutts' Blog GoogleWashed", mais je continue à penser qu'il s'agit d'un contresens.

Mais peut-être que votre utilisation commune de ce terme dans ce sens est une tentative de GoogleWash ? :smartass:

Modifié 14 Mars 2008 par zapman

Connexion

Duplicate Content ?

Sujets conseillés

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Veuillez vous connecter pour commenter