zapman
jeudi 13 mars 2008 à 03:11
Merci beaucoup, Jan d'enrichir cette discussion par tes arguments. J'adore les dicussions un peu "pointues" sur ce sujet.
CITATION(Jan @ jeudi 13 mars 2008 à 09:48)

Un problème d'URL canonique entraine un problème de "contenu dupliqué". 2 URLs distinctes renvoient le même contenu.
La théorie voudrait effectivement que Google ne garde que la page originale, la première à avoir été publiée (ou crawlée) ou celle qui possède le plus de liens. Ceci dans le but d'éliminer les "scrapers", sites faits de copie pirates que Google considère comme "pollueurs" de son index.
Oui, mais pas seulement. De trés nombreux sites présentent à l'internautes et aux moteurs des pages ayant plusieurs URLs ou des pages ayant des contenus quasi-identiques. C'est par exemple le cas quand un site propose une version imprimable de son contenu.
Webmaster-Hub n'échappe pas à cette pratique : en faisant une recherche sur
"Duplicate content inurl:webmaster-hub" , vous pourrez constater que le topic que nous sommes en train d'alimenter est présent plus d'une quinzaine de fois dans l'index de Google et ce parceque Webmaster-hub présente cette même page sous une quinzaine d'URLs différentes, ce qui est un cas assez féroce de Duplicate Content.
Je ne crois pas pour autant que le Hub soit victime d'une "pénalité" ou d'un effet négatif quel qu'il soit pour cette raison.
CITATION(Jan @ jeudi 13 mars 2008 à 09:48)

Sauf que:
- Si Google fait le mauvais choix, à savoir qu'il choisit l'URL qui a très peu de backlinks (parfois un seul) au détriment de l'URL que souhaitait faire indexer le webmaster (et qui a donc en général plus d'un backlink, interne ou externe), la page indexée par Google peut à terme finir dans son "index complémentaire" faute de backlinks, et perdre ainsi toute visibilité dans Google.
J'avoue encore une fois ne pas avoir fait d'expérimentation concernant la gestion des URLs canoniques, mais pour ce que j'en sais, le cas de figure que tu proposes n'aura pas la conséquence que tu supposes :
Même si l'URL choisie par Google est celle qui a peu de backlinks, elle bénéficie, en tant qu'URL canonique, de tous les backlinks créés sur les autres pages. Globalement, le nombre total de backlinks pris en considération n'a absolument pas changé. L'effet est en réalité positif pour le site concerné car il se retrouve avec une seule page "boostée" au lieu d'avoir ses backlinks "étalés" sur plusieurs page identiques.
CITATION(Jan @ jeudi 13 mars 2008 à 09:48)

- Si l'on considère que les sites "scrapers" sont une menace de première importance pour la pertinence de Google, et que le filtrage du "contenu dupliqué" est l'un seul moyen qu'a Google de les combattre, on ne peut exclure qu'une des prochaines releases du filtre pénalise (volontairement ou pas) les sites qui auront trop d'urls en duplicate content.
On n'est jamais trop prudent, en effet, mais là ça me semble plus proche d'une douce paranoïa que de la prudence car si Google s'orientait dans cette direction, plusieurs millions de sites seraient injustement pénalisés de façon trés importante. Je les vois d'autant plus mal commettre une erreur de ce genre que la gestion actuelle des URLs canonique et du Duplicate Content me semble particulièrement au point et efficace.
Pour tout dire, ce type de crise a déjà eu lieu lors d'une mise à jour baptisée "Allegra" en février 2005 mais elle était d'ampleur trés mesurée et Google a trés vite rectifié le tir. C'est sans doute à cette occasion qu'il a "peaufiné" sa gestion du Duplicate Content et il semble peu probable que les principes généraux de ce filtre soient beaucoup remis en cause à l'avenir (même si j'ai bien conscience de m'avancer beaucoup en disant ça).
CITATION(Jan @ jeudi 13 mars 2008 à 09:48)

Beaucoup de sites en ont fait l'expérience depuis plusieurs années (4?). Lordzener, il est préférable de régler le problème.
Depuis le temps que je me passionne pour ce sujet, j'attend toujours un exemple concret de "sites qui en ont fait l'expérience". Comme souvent, on met sur le dos du Duplicate Content tout un tas de choses qui n'ont rien à y voir.
La seule mesure de prudence qui me semble réaliste est celle que je rappelle dans ma page sur le sujet :
N'attribuez jamais le même titre et le même descriptifs (balises TITLE et DESCRIPTION) à plusieurs pages ayant des contenus distincts.Pour peu que vos pages aient le même header, le même footer et le même menu (ce qui est à la fois normal et fréquent), le fait d'avoir le même titre et le même descriptif pourrait amener Google à les croire quasi-identiques. Moins les pages sont riches en contenu texte, plus le risque est important.