Aller au contenu

Taux de similarité entre 2 pages


Régis

Sujets conseillés

Bonjour,

Je viens de découvrir "Similar Page checker" : http://www.webconfs.com/similar-page-checker.php qui permet de tester la similarité entre 2 pages.

J'ai testé et oups 2 de mes pages sont similaires à 92%.

Selon vous, à partir de quel taux de similarité Google considère-t-il 2 pages comme identique ? 70%, 80 %, 90% ou 100 % ?

Et quels en sont les risques ? blaklistage ?

PS : connaissez-vous d'autre URL permettant ce type de test ?

Merci

Lien vers le commentaire
Partager sur d’autres sites

Pour Google, la vérité c'est que personne ne sait vraiment.

Je trouve que ce genre d'outils fait perdre du temps plutôt qu'autre chose. Celui que tu cites n'explique pas en plus ce qu'il prend en compte dans son calcul de similarité (texte seul, code HTML, balises alt, ???)

Le seul vrai risque est la disparition d'une page de l'index en raison de la détection de "duplicate content"... Mais il reste l'autre page...

Lien vers le commentaire
Partager sur d’autres sites

Merci Cariboo, je suis OK sur le fait que cela peut faire perdre du temps... mais le sujet a exité ma curiosité.

Je me doute que personne ne connaît la vérité sur l'algorithme de Google et donc, je ne m'attendais pas à un chiffre précis mais plutôt une fourchette.

C'est vrai que cette URL n'indique pas les paramètres pris en compte pour le calcul de similarité et je me posais la même question... c'est pourquoi, j'ai demandé s'il existe d'autres URL de ce type pour comparer.

Du coup, je me pose une autre question : combien faut-il au minimum de mots différents dans une page ?

Modifié par gatcweb
Lien vers le commentaire
Partager sur d’autres sites

Du coup, je me pose une autre question : combien faut-il au minimum de mots différents dans une page ?

Dans le cas de Google, un seul mot peut suffire (mais tout dépend où il est placé)

C'est le résultat d'un petit test que j'avais fait durant le concours Seraphim Proudleduck.

L'un des concurrents avait essayé de faire pénaliser ma page de participation en faisant un lien vers celle-ci, avec un paramètre supplémentaire dans l'url.

Résultat, duplicate content puisque Google se retrouvait avec une page strictement identique sous deux urls différentes.

Ce à quoi j'ai simplement riposté en ajoutant un seul mot dans la page appelée par la 2ème url. Le mot était placé à la fois en fin de balise Title, et tout en haut du code source juste après le Body.

Apparemment cela suffit pour passer le filtre de dédoublonnage sur Google.

Donc, je pense qu'il ne faut pas raisonner forcément en termes de pourcentage de similarité et que Google attache plus d'importance aux différences de contenu entre certains éléments du code source (balise Title, 1er paragraphe de texte...)

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...