Aller au contenu

pénalités Google Duplicate content en augmentation ?


jnj

Sujets conseillés

bonjour

thème de ce fil : Google a t il changé son algorithme de détection de duplicate content et donc de l'application des pénalités associées ?

je présente la situation

Sur plusieurs sites de mes clients ou de sites que je gère, je constate des pénalités inexpliquées : pas de spamdexing , pas de liens loués ou autre techniques sanctionnées par Google sur ces pages. Les pages sont isolées au sein de chaque site.

Ces pages avaient du PR dans la Googlebar et depuis , disons début avril, de nombreuses pages sont passées de PR vert quelque chose à gris

Pire, quand je cherche cette page via des mots clefs , Google ne la donne jamais en réponse. Dans certains tests, il me propose 5 pages en SERP sur le web mondia via une requete sur 15 mots clefs. Et la page du site qui est référencée sur sur ces mots clefs n'est pas proposée en SERP. Dès que je mets un peu de guillements pour forcer casse et mots consécutifs, hop elle sort dans la SERP.

=> symptôme typique d'un black list partiel de la page.

Des comme cela j'en ai entre 0 et quelques dizaines par site.

différentes campagnes de tests et mesures m'ont conduit à suspecter un changement d'algorithme chez Google et un des symptômes en est l'application très rapide de pénalités pour duplicate content

Pour être transparent :

- je n'expliquerai pas encore pourquoi j'en suis arrivé à cette conclusion (histoire de ne pas influencer ceux qui accepteront de me répondre ou de faire des tests de leurs côtés) - je communiquerai plus tard les raisons ayant amenées à cette conclusion

- il y a d'autres changements qui basculent des pages "propres" depuis des années en googlebar grisée avec des pénalités. Je les ai détectées mais pour le moment je ne les ai pas encore toutes identifiées clairement.

- un autre symptôme de l'ensemble de ces changements : la variation en PR , en général à la baisse, sur les pages d'un site.

le contexte étant posé,

Mes questions à la communauté des référenceurs professionnels ou amateurs avertis :

1 - avez vous constaté de tels "phénomènes" ?

2 - avez vous essayé de déterminer le pourquoi ?

3 - avez vous d'autres idées sur la cause de ces applications de pénalités ?

au plaisir de partager ces informations

Cordialement

Lien vers le commentaire
Partager sur d’autres sites

Autre piste : si c'est tout le réseau qui a morflé, il s'agit peut-être d'une pénalité infligée sur le webmaster. En tout cas, oui, j'ai vu des webmasters dont tout le réseau était dévalué, sans doute à cause de suroptimisation ou même lorsque le webmaster est carrément taggé spammeur.

Quand au dup content, je n'ai rien noté de particulier, mais je n'ai pas non plus regardé ce paramètre plus que ça depuis un bon bout de temps. Le point de rupture était déjà bien haut (30 - 40 %), donc ça ne laisse plus beaucoup de latitude pour tenter de refourguer plusieurs fois la même came.

Lien vers le commentaire
Partager sur d’autres sites

J'ai eu le meme souci niveau duplicate content, une tombée dans les profondeur du dieu google, puis pour certains domaines, un blacklistage pur et simple.

Mais ca dépend aussi de l'ancienneté du nom de domaine, car je n'ai eu le souci que sur des ndd récent, ou sous domaine récent.

Lien vers le commentaire
Partager sur d’autres sites

C'est clair que l'ancienneté du site joue vraiment pour se permettre des optimisations plus ou moins poussées.

Cependant, il est possible de remédier à ce type de pénalité (surtout Sandbox), notamment en jouant sur une fréquence de mise à jour élevée et une interaction visiteur poussée.

El-Cherubin connaît mon propos à ce sujet, mais j'ai plusieurs exemples de sites qui ont passé le stade des pénalités innérentes aux jeunes sites grâce à leurs attributs sociaux et la fréquence de mise à jour. Par contre, un site standard qui repose sur contenu + backlinks est propice à attirer les foudres des filtres Google.

Lien vers le commentaire
Partager sur d’autres sites

Il est vrai, je connais ton point de vue la dessus, et justement, si je mets la dose de social sur ces urls que google m'a plombé, ya moyen de revenir a un niveau correct selon toi?

Mais quand tu dis, fréquence de mise a jour régulière, et autres, c'est plutot du genre quotidien ou hebdomadaire?

Modifié par El-Cherubin
Lien vers le commentaire
Partager sur d’autres sites

Merci Thick et cherubin

aucune des pages sanctionnées n'a de contenus répétés sauf bien sur le bandeau du haut et le menu de gauche. La "camme" comme tu dis est exclusive à chaque fois

les noms de domaine ont de mémoire un an et quelques pour l'un et deux et quelques pour l'autre

Les optimisations de toutes ces pages sont standards. rien n'est poussé sauf 'l'URL qui est travaillé en mot clef. Et les autres pages baties sur la même architecture n'ont pas été sanctionnées - elles ont plus de contenu. Hasard ?? je n'ai pas l'impression.

qu'est ce que : "une dose de social sur des URL" je ne connais pas le terme.

Lien vers le commentaire
Partager sur d’autres sites

@ El-Cherubin : j'ai testé le social pour booster un site, mais par pour déplomber des pages. Ton test sera précieux. M'oublie pas quand tu auras les résultats.

Par rapport à la fréquence de mise à jour, c'est sous-entendu quotidien. Google aime voir que le site est en interaction permanente avec l'utilisateur.

@ jnj : je ne comprends plus trop. Tu mets en titre du thread qu'il s'agit de duplicate content et maintenant tu me dis qu'il n'y a pas de contenu répété (duplicate content en anglais).

Concernant les doses de social, ça sortirait vraiment du topic, mais pour t'expliquer en deux mots, j'affirme que Google est très friand d'attributs sociaux. Pour les blogs, il s'agit évidemment des commentaires, mais pour une boutique cela peut-être les avis de consommateurs. Pour un site "standard", il peut s'agir d'un espace de partage de contenu (texte, audio, video).

Lien vers le commentaire
Partager sur d’autres sites

Finalement, tout ce qui est susceptible de générer du contenu unique, non ?

Ce n'est pas du côté de la génération de contenu, mais vraiment par rapport à l'interaction entre le site et son visiteur. Grâce à la Toolbar, Google voit tout ce que fait l'internaute. Si le visiteur place le site dans ses favoris (sur l'ordinateur ou en ligne), c'est un vote social extrêmement important, s'il rédige un commentaire c'est aussi un vote social, s'il décide de publier l'article sur un Digg-Like c'est toujours du social, etc.

L'autre possibilité est d'attacher des attributs sociaux tels qu'un forum, espace de partage contenu, etc. Ce n'est pas tant le contenu en lui-même qui importe (même si ça compte bien entendu), mais surtout sur le fait que le site est embarqué dans ce foutu Web 2.0 que Google a décidé de valoriser du point de vue de son algo.

C'est tout à fait logique, car la popularité d'un site liée au PageRank/nombre de backlinks est devenue faussée, voire totalement dévaluée. Du coup, l'internaute est au centre de la stratégie Google qui collecte tout un tas d'informations à son sujet, l'utilisant ensuite pour juger de la pertinence d'un site. En moyenne, Google collecte environ 600 informations personnelles via la Toolbar.

Lien vers le commentaire
Partager sur d’autres sites

thick, le menu de gauche, le bandeau du haut, bref des éléments récurrents communs à toutes les pages du site sont du duplicate content

Donc on peut parfaitement avoir une page avec un contenu unique et être en duplicate content

Exemple : bandeau, balises ALT et TITLE des visuels du bandeau, menu généré par un classique .php pèse 200 mots significatifs

Si la partie "unique" de la page contient peu de mots, un formulaire simple de contact par exemple, elle bascule en page sanctionnée.

la part unique de la page n'est pas assez importante face à la part récurrente dupliquée n fois de la page.

Question age du ndd, il est exact , pour le moment, que les sites jeunes de moins de 2 ans ont ces problèmes et que je n'ai rien sur les sites plus agés

Social et Google

oui, je pense comme thick. Depuis des années GG accumule des infos via la GG bar.

mais une immense majorité de gens ne l'ont pas et ne l'auront jamais

ce qui limite l'usage de ces données par GG

indiscutablement Google met l'internaute au centre de ses algorithmes

c clair depuis des années. Juste qu'ils commencent à passer à l'offensive maintenant

Lien vers le commentaire
Partager sur d’autres sites

mais une immense majorité de gens ne l'ont pas et ne l'auront jamais ce qui limite l'usage de ces données par GG

Crois moi, il s'en fiche royalement ! Il y a bien suffisamment d'utilisateurs qui ont la Toolbar, et les données recueillies sont tellement précieuses que GG ne va pas passer outre la possibilité de s'en servir pour évaluer la pertinence. Bien entendu, il n'y a pas que ça, mais c'est un morceau qui prend une place de plus en plus importante.

Quand aux éléments communs, si tu les prends en compte comme la plupart des outils qui permettent d'évaluer le dup content, tu vas avoir des résultats qui dépasse le raisonnable. Dans ce cas, il est commun d'être au-delà de 80 % de dup. Il faut prendre en compte uniquement les éléments du corpus, dégageant les éléments communs que tu cites.

Ton problème ne peut pas venir de là.

Lien vers le commentaire
Partager sur d’autres sites

Well

le problème peut venir d'où ?

le point commun entre la grande majorité de ces pages différentes sanctionnées, "propres", c'est leur relatives petites tailles face à un menu de gauche relativement important.

des pages sont passées de visibles avec PR5 à invisibles PR0 !

sans rien faire !

et sans spamdexing

????

Lien vers le commentaire
Partager sur d’autres sites

Un truc qui m'a sorti de ce genre de situation est de reprendre à 0 le contenu des pages, tout en l'augmentant.

Je ne te garantie pas le résultat, mais c'est une option. Tu seras vite si ça marche puisque j'ai un effet de réaction quasiment après le crawl.

Mais franchement, les éléments communs ne sont pas vraiment des facteurs bloquants du même qu'ils restent dans la limite du raisonnable. Après, si t'as collé un plan du site dans chaque menu, c'est un peu abused. Je préconise une structure qui ressemble de loin à un arbre généalogique, impliquant un maximum de verticalité, mais peu d'horizontalité.

Lien vers le commentaire
Partager sur d’autres sites

Bonsoir,

je vous lis avec perplexité concernant le "social" :unsure: ; est-ce possible sur tous les sites ? Je gère des sites sur la fabrication des mats en fibre de verre ou d'autres sur le thermoformage et je me vois difficilement intégrer ce facteur ; quant à faire participer le visiteur, il s'agit la plupart du temps d'un sourceur qui ne prend déjà pas la peine de remplir convenablement la fiche de demande alors lui demander de donner un avis ...

La Feste

Modifié par lafeste
Lien vers le commentaire
Partager sur d’autres sites

(...) Quand aux éléments communs, si tu les prends en compte comme la plupart des outils qui permettent d'évaluer le dup content, tu vas avoir des résultats qui dépasse le raisonnable. Dans ce cas, il est commun d'être au-delà de 80 % de dup. Il faut prendre en compte uniquement les éléments du corpus, dégageant les éléments communs que tu cites.(..)
Hello Thick,

Connais-tu une application online ou un soft capable d'estimer le "dup content" seulement sur les éléments du corpus ?

(...) Je gère des sites sur la fabrication des mats en fibre de verre ou d'autres sur le thermoformage (...)
Bonjour La Feste,

Tu peux, par exemple, avoir un blog sur ton métier : les commentaires seront un "+" social pour Google ou encore des vidéos (fabrication des mats en fibre de verre) en partage...

Lien vers le commentaire
Partager sur d’autres sites

Bonjour régis,

merci pour l'avis mais c'est souvent là que le bât blesse, les fabricants sont tellement jaloux de leurs fabrications que montrer ce type de documents les rend impossibles à gérer ; j'ai même le cas d'un fabricant de produit qui a retiré son site quand il a su qu'il fallait montrer des photos de ses produits, ou mieux de sa fabrication ... Je vais tenter les sondages je pense ...

Merci ...

La Feste

Modifié par lafeste
Lien vers le commentaire
Partager sur d’autres sites

Well

le problème peut venir d'où ?

le point commun entre la grande majorité de ces pages différentes sanctionnées, "propres", c'est leur relatives petites tailles face à un menu de gauche relativement important.

des pages sont passées de visibles avec PR5 à invisibles PR0 !

sans rien faire !

et sans spamdexing

????

Ce petit problème date dedéjà quelques mois. Ce n'est pas à proprement parlé du duplicate content. GG grise les pages dont le rapport contenu (texte) - texte de lien est trop faible. Sur un de mes sites, doit bien avoir une trentaine de pages qui sont passée de PR4 à grisées sans autres explications. Une est revenue en rajoutant du texte. Portant, pas évident, ces pages sont les pages d'entrées des lettres d'un dictionnaire. Toutes n'ont pas le problème , la lettre A (j'en ai conclu que les internautes cliquent plus souvent sur A que sur Z (mais c'est aussi celle qui a le plus de définition) et quelques pages qui reprennent un mot suivi d'une petite définition (le reste de mon début de travail quand je l'ai commencé).

Soit réduit le nombre de liens, soit augmente le texte.

Lien vers le commentaire
Partager sur d’autres sites

Je crois que son problème va plus loin que le PR grisé car il parle de non réaction sur ces mots clés. Ceci étant, il est difficile d'évaluer cette passivité sans avoir d'URL. Toutefois, le conseil d'augmentation de contenu ne peut être que bénéfique ;)

@ Régis : salut ;) Cet outil me semble plutôt pas mal http://www.duplicatecontent.net/

Lien vers le commentaire
Partager sur d’autres sites

A regarder aussi la suroptimisation de l'url (donc aussi le ndd). Par exemple comme sur ton site de référencement. Ca, ça doit déclencher un clignotant chez google

Lien vers le commentaire
Partager sur d’autres sites

A regarder aussi la suroptimisation de l'url (donc aussi le ndd).(...)

Tu pars du principe que les mots clefs dans les URLs sont importants... mais c'est avis n'est pas partagé par tout le monde, voir, par exemple, l'intervention pertinente de Thick dans ce topic récent : Des mots clés dans l'url, Ca vaut vraiment le coup ? mais mettre une succession de mots clefs peut être effectivement considéré comme de la suroptimisation...

Lien vers le commentaire
Partager sur d’autres sites

Tout ceci me fait un peu flipper car je prépare un site avec NDD optimisé, url rewriting sur un secteur concurrentiel !

A la lecture de ce post et d'autres sur des forums (à propos du lancement d'un site optimisé aux petis oignons) Je pense que je vais désoptimiser certains critères pour la mise en ligne... :rolleyes:

Lien vers le commentaire
Partager sur d’autres sites

Encore une fois ça dépend ! Si le site est ancien, tu peux te permettre plus de choses qu'avec un puceau.

De plus, tu peux rewriter, mais du coup il faut éviter de faire le bourrin dans le HEAD et le corpus.

Ceci étant, je répète encore et toujours que l'URL possède un faible poids dans l'algo et qu'on peut largement s'en passer.

Donc ... :D

Lien vers le commentaire
Partager sur d’autres sites

Tu pars du principe que les mots clefs dans les URLs sont importants...
non, je pars du principe qu'ils ont été importants mais ne le sont plus (pour gg du moins), mais qu'une url (et ndd) suroptimisé, ça me fait fuir en tant qu'internaute, et que je serais gg, je ferais un filtre à spam, avec l'optimisation outrancière de l'url et de la meta keyword : rien ne dit qu'ils n'ont plus d'importance, mais peut-être pas dans le sens qu'espèrent certains :nonono:

'

Lien vers le commentaire
Partager sur d’autres sites

Il y a tout de même une différence entre

www.nomdusite.tld/nom-de-la-page.html

et

www.mot-cle.tld/mot-cle1/mot-cle2/mots-cles-de-la-page.html

Je doute que la première, pour autant qu'elle n'ait pas de noms de page à rallonge, soit considérée comme suroptimisée.

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...