Aller au contenu

Les accents et google...


Mona

Sujets conseillés

Bonjour à tous,

J'amerais comprendre les faits suivants:

Si je fais une recherche google avec "probleme informatique", mon site est en page 2 de google (16° position environ).

Si je fais une recherche google avec "problème informatique", donc en omettant pas l'accent grave, mon site n'est même plus parmi les 100 premiers résultats...

(Il s'agit du site inscrit dans ma signature).

Au niveau codage, le mot problème est bien écrit "problème" dans les pages.

La balise suivante est sur mes pages: <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">

Et l'aide google indique qu'il ne fait pas de différence entre caractères accentués ou non...

Quelqu'un connait-il ce problème ou ... probleme :) .

Merci.

Mona.

Lien vers le commentaire
Partager sur d’autres sites

Cet article ne répond pas à la question posée. :nonono:

En fait, Google prétend que l'emploi des accents n'intervient pas dans les résultats. Recherches Google -- Principes de base - MAJUSCULES, minuscules et accents :

Par défaut, les recherches Google ne tiennent pas compte des accents ou autres signes diacritiques (cédille, tilde espagnol, umlaut allemand, etc.). Ainsi, les termes [FRANÇAIS] et [FRANCAIS] retrouvent les mêmes pages. Pour indiquer que ces deux termes ont une signification différente, utilisez un signe plus ( + ), soit les termes de recherche [+FRANÇAIS] et [+FRANCAIS].

C'est ce que Google dit, pourtant, ce n'est pas ce qu'on constate et je n'ai lu nulle part une explication cohérente à ce sujet.

Jean-Luc

Lien vers le commentaire
Partager sur d’autres sites

je te conseille de lire l'excellent article suivant :

http://openweb.eu.org/articles/jeux_caracteres/

tu comprendras alors que les caractères é et e sont différents.

Merci yep,

Je connaît fort bien les différences fondamentales entre les caractères, les charsets etc... (ben, je suis informaticien à la base... ;) ). Ce que je me demande, c'est pourquoi google fait la différence alors qu'il annonce le contraire, et surtout, pourquoi mon site est bien classé sur le mot "probleme" et mal classé sur "problème" alors qu'il ne contient que le mot "problème"...

Modifié par Mona
Lien vers le commentaire
Partager sur d’autres sites

Bonjour,

Il se dit que google a des filtres qu'il applique à certains sites ou certaines pages un peu trop optimisées, ou nouvelles.

Cet effet que certains appellent "sandbox", fait que certaines pages pourtant bien préparées pour un mot clé en particulier n'apparaissent pas de suite (ou meme disparaissent) dans les résultats sur la requete concernée.

D'où ma théorie: les filtres ne s'appliquent peut-etre pas (ou dans une moindre mesure) aux erreurs d'orthographe ou de frappe. Le mot clé "probleme" (sans accent) est considéré comme une faute et donc traité sans ce filtre, ce qui fait ressortir ton site.

Si ce que je viens de dire est vrai (c'est une théorie), il devrait sortir en bonne position sur le mot clé "problème" (avec accent) dans quelques semaines ou mois....

Ce n'est pas un problème technique en tout cas, car la recherche "problème informatique" ressort bien des résultats lors d'une requete sur les pages de ton site (site:www.example.com problème informatique)

Lien vers le commentaire
Partager sur d’autres sites

Bonjour Alphega,

J'ai en effet entendu parler de la sandbox. Et si ta théorie est exacte, elle est facile à vérifier: Il suffit de comparer la place de sites anciens sur des requêtes avec ou sans accent... L'as-tu étudié ?

Je vais faire quelques tests...

Mona.

Lien vers le commentaire
Partager sur d’autres sites

Pour la sandbox, un petit article que j'ai mis en ligne hier : Sortir de la sandbox : une méthodologie

Pour le problème d'accent, je pense que malgré ce qu'il indique, il est fort possible que Google distingue les deux cas.

Je me souviens de campagnes Adwords, où je travaillais sur les expressions exactes. Google différenciait bien les mots avec un caractère accentué ou non pour les affichages des ads.

On est bien d'accord, que tu recherches problème informatique avec ou sans accent, tu as des résultats avec les deux, même en mettant l'expression entre guillemets.

Par contre, teste allintitle:problème informatique ou allinanchor:problème informatique, avec ou sans accent, tu verras qu'il sépare les résultats.

Lien vers le commentaire
Partager sur d’autres sites

Lors d'une recherche, j'ai des résultats avec ou sans accent, mais pas du tout les mêmes ! 16° sur "probleme" et pas classé sur "problème" alors que mon site contient "problème", je ne comprends vraiment pas. (je n'utilise pas les guillemets lors de recherches... c'est juste pour mettre l'expression en évidence dans le post)

Mona.

Lien vers le commentaire
Partager sur d’autres sites

Il suffit de comparer la place de sites anciens sur des requêtes avec ou sans accent... L'as-tu étudié ?

Non, je ne l'ai pas étudié mais en regardant les résutats sur la requete problème informatique (avec ou sans accents), je m'aperçois que le hub est placé en 1ere page pour chacune des requetes alors que dans la page en elle meme, le mot "probleme" n'est donné que sans accent.

Lien vers le commentaire
Partager sur d’autres sites

Surtout, ça semble confirmer que pour les sites anciens, l'accent ne joue pas... Qu'on tape "problème" ou "probleme", on retrouve les mêmes sites dans le groupe de tête... Ca pourrait donc confirmer que:

1. La sandbox fonctionne comme tu l'indiques: Pas d'effet SandBox pour les requêtes avec fautes d'orthographe (sans dout parce que considérées comme requête secondaire)

2. Une requête avec et sans accent permet bel et bien de savoir où on en est ! Si les positions sont semblables, c'est tout bon, sinon, le site est toujours sandboxé.

Mona.

Lien vers le commentaire
Partager sur d’autres sites

_AT_Mona

je m'en doutais, mais ce que je voulais faire passer c'est tout simplement le fait que les caractères accentués et non accentués, ou autres caractères en langues exotiques, ne sont pas écrits/encodés de la même manière, et donc qu'ils ne sont pas identiques, ce qui amène en réalité Google à proposer des résultats différents, bien qu'il tente de proposer les mêmes résultats (alors qu'à mon goût il ne devrait pas puisque ce ne sont pas les même caractères)

Par ailleurs, l'utilisation des entités HTML n'a été mise en place que pour pallier les problèmes d'encodage de caractères et de fichiers.

Si votre fichier était correctement encodé (=dans le même encodage que son contenu), vous n'auriez pas à utiliser ces entités. De ce fait, si on suit ce que veut Google (à savoir des sites de qualité), j'appliquerais un malus lors de l'utilisation de ces entités.

Modifié par yep
Lien vers le commentaire
Partager sur d’autres sites

Bonjour,

Je pense que lors des recherches sous google, le fait d'avoir un accent ou pas d'accent donne pour lui deux requêtes différentes avec chacune leur classement (comme si il s'agissait de deux mots complètement différents)

J'ai aussi le problème avec un de mes sites qui est très bien positionné avec l'accent et très mal sans l'accent.

Je pense que si je faisait exprès des fautes (en omettant des accents dans le contenu de mon site), je ressortirais beaucoup mieux!!! Mais ça serais tout de même un comble de faire exprès des fautes pour être bien positionné, parce qu'un grand nombre d'internautes ne tape pas les accents dans les requêtes!!!

Lien vers le commentaire
Partager sur d’autres sites

  • 1 month later...

Bonjour à tous,

Un petit "UP" sur ce sujet pour confirmer quelques conjectures. Rappel rapide:

J'avais constaté que mon site était sandboxé à sa sortie: Aucune requête concurrentielle ne le faisait apparaître dans les 1000 premiers résultats. Par exemple: dépannage informatique, assistance informatique, problème informatique.

Par contre, l'introduction d'une variante le faisait apparaître. Par exemple, omission de l'accent ( => probleme informatique) le plaçait parfois jusqu'en page 2 (!), en position 15 ou 16. Donc, pas dans les 1000 avec "problème", et dans le top 20 avec "probleme"... il y avait un problème.

Le théorie qui se dégageait était la suivante: Pour détecter la sortie de Sandbox, il suffit de surveiller une requête typique et sa variante "presque mal orthographiée", dans mon cas, "probleme informatique" et "problème informatique", ce que je fais depuis 5 mois... Dans le même temps, bien sûr, je vérifie les requêtes plus concurrentielles encore "dépannage informatique", et "assistance informatique" et.... Aujourd'hui, ça y est ! "Problème" et "probleme" sortent bien toutes les deux, et parallèlement, les requêtes "dépannage informatique" et "assistance informatique" sortent aussi depuis aujourd'hui.

En conclusion, je dirais donc que la théorie était juste. Google applique son filtre sandbox aux requêtes concurrentielles (attention, ce n'est pas le nombre de résultats qui compte, mais bien le nombre de requêtes tapées par les internautes!), mais il ne peut pas le faire sur les requêtes mal orthographiées. Il suffit donc de surveiller les réultats pour détecter la sortie de Sandbox... A défaut d'éviter la Sandbox, on peut au mois la diagnostiquer, c'est déjà pas mal...

Mona.

Lien vers le commentaire
Partager sur d’autres sites

Bonjour à tous,

Un petit "UP" sur ce sujet pour confirmer quelques conjectures. Rappel rapide:

J'avais constaté que mon site était sandboxé à sa sortie: Aucune requête concurrentielle ne le faisait apparaître dans les 1000 premiers résultats. Par exemple: dépannage informatique, assistance informatique, problème informatique.

Par contre, l'introduction d'une variante le faisait apparaître. Par exemple, omission de l'accent ( => probleme informatique) le plaçait parfois jusqu'en page 2 (!), en position 15 ou 16. Donc, pas dans les 1000 avec "problème", et dans le top 20 avec "probleme"... il y avait un problème.

Le théorie qui se dégageait était la suivante: Pour détecter la sortie de Sandbox, il suffit de surveiller une requête typique et sa variante "presque mal orthographiée", dans mon cas, "probleme informatique" et "problème informatique", ce que je fais depuis 5 mois... Dans le même temps, bien sûr, je vérifie les requêtes plus concurrentielles encore "dépannage informatique", et "assistance informatique" et.... Aujourd'hui, ça y est ! "Problème" et "probleme" sortent bien toutes les deux, et parallèlement, les requêtes "dépannage informatique" et "assistance informatique" sortent aussi depuis aujourd'hui.

En conclusion, je dirais donc que la théorie était juste. Google applique son filtre sandbox aux requêtes concurrentielles (attention, ce n'est pas le nombre de résultats qui compte, mais bien le nombre de requêtes tapées par les internautes!), mais il ne peut pas le faire sur les requêtes mal orthographiées. Il suffit donc de surveiller les réultats pour détecter la sortie de Sandbox... A défaut d'éviter la Sandbox, on peut au mois la diagnostiquer, c'est déjà pas mal...

Mona.

Je pense la même chose, merci de l'avoir exprimé de façon claire :P.

Le phénomène du "on rajoute des accents et on bypass la sandbox" induit en erreur sur la prise en compte réelle de l'accentuation dans Google.

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...