Aller au contenu

Sémantique des éléments et référencement


Guest CraJK

Sujets conseillés

Hello world,

Je m'apprete à refaire mon premier site pour le mettre en vigueur avec les normes mais je me pose une question au sujet du référencement.

Est ce qu'il vaut mieux que je le fasse en XHTML ou à l'aide d'un CMS (je pense à SPIP) que je connais en local mais que je n'ai jamais testé en dur.

En gros je cherche à me positionner sur des mots clés avec beaucoup de réponse alors avec quelle méthode je tirerais le meilleur profit pour emule-conseil.com ?

Merci à qui pourra m'apporter des éléments de réponse.... :P

Lien vers le commentaire
Partager sur d’autres sites

J'avoue ne pas bien comprendre la question.

- Le choix d'XHTML au lieu de HTML n'a aucune incidence possible sur le référencement d'un site : les moteurs de recherche actuel, à commencer par Google, traiteront de toute façon tes pages comme du HTML, et non en tant que XML. En fait, ils traiteront probablement tes pages standards comme de la soupe de tag, car rien n'indique qu'ils fassent une quelconque différence...

- SPIP peut être utilisé pour produire du XHTML (quoique cela ne soit pas évident du tout).

Il faut être clair, je crois, sur cette vieille utopie : le respect d'un des standards HTML / XHTML du W3C n'apportera rien quant au référencement au sens des techniques spécifiques de celui-ci. Il faut différencier en effet :

- le respect d'un standard (la validité);

- et l'approche "structurelle" des pages, avec l'exemple classique de l'utilisation des titres <h1>...

C'est cette approche structurelle qui favorise le référencement. Il se trouve que ceux qui font des pages conformes aux standards adoptent généralement cette approche. Mais on peut tout aussi bien:

- faire des pages valides très peu référençables,

- respecter cette approche sans pour autant faire des pages valides.

Conclusion ? Avec les moteurs de recherche actuels, respecter les standards ne nuit pas au référencement et aux techniques de celui-ci. C'est déjà beaucoup :P

Lien vers le commentaire
Partager sur d’autres sites

Ah je croyais que mon sujet était passé innaperçu OUF :wub:

Par contre, je me suis surement mal exprimé ARF :flame:

En fait, je ne voulais pas savoir l'incidence sur le référencement entre le XHTML et le HTML mais plutôt comment se comporte un CMS au niveau du référencement.

En effet, étant plus ou moins autodidacte, le peu de chose que je connaisse je le les ai appris tout seul à travers différents sites et dans ma peite tête un CMS, c'est un peu comme un forum IPB mais pour faire un site (et non un forum).

Ouloala, c'est pas trés clair dans ma tête....

Bon j'essaye de reprendre le fil de mon histoire.......

Je pense que pour un CMS, je perdrais sur mon référencement car mes méta seront les même sur toutes mes pages (articles, brèves,etc....) exeptés les title, non ??

Donc, j'y perdrais en référencement mais j'y gagnerais en gain de temps pour mes mises à jour.

Avec un site XHTML ou HTML, je pourrais orienté mes métas différenment sur chaque page et donc les orienté sur les sujets et mots que je souhaite, donc j'y gagnerais en matière de référencement mais j'y passerais plus de temps.

Merci LaurentDenis pour ta réponse et j'espère que maintenant le sujet et un peu plus clair pour tous.

:whistling:

Lien vers le commentaire
Partager sur d’autres sites

En effet, étant plus ou moins autodidacte, le peu de chose que je connaisse je le les ai appris tout seul à travers différents sites et dans ma peite tête un CMS, c'est un peu comme un forum IPB mais pour faire un site (et non un forum).

Ouloala, c'est pas trés clair dans ma tête....

Disons qu'un CMS peut-être souvent être modifié (le Hub en est un bon exemple) sans pour autant le réécrire entièrement. Tout est affaire de personnalisation, ce qui est en général assez facile sans être un "pro" du PHP par exemple, si le CMS en question est codé proprement et bien documenté. Il s'agit juste ici d'exploiter l'existant pour ajouter une fonctionnalité assez basique.

Je pense que pour un CMS, je perdrais sur mon référencement car mes méta seront les même sur toutes mes pages (articles, brèves,etc....) exeptés les title, non ??

Donc, j'y perdrais en référencement mais j'y gagnerais en gain de temps pour mes mises à jour.

Je n'ai pas testé SPIP sur ce point précis, mais :

- la génération de métadonnées robots, mot-clé, description, date de publication et et de mise à jour, etc. est effectivement un point faible de tous les CMS que j'ai rencontré.

- le fond du problème, AMHA, est que ces métas recèlent un énorme potentiel (voir le Dublin Core)... qui reste potentiel faute de prise en compte déterminante par les moteurs.

Donc, sous cet angle, je ne crois pas que ce soit une question avec laquelle il faille se prendre la tête actuellement. Qu'en pensent les spécialistes en référencement ?

Lien vers le commentaire
Partager sur d’autres sites

Essayons d'être clair et de différencier les aspects.

Le respect des standards:

Faire du code valide le rend lisible et compréhensible par une machine et par conséquent par un robot.

La sémantique:

Je suis intimement persuadé qu'un code structuré (h1, h2, h3, strong, etc) joue dans le référencement. Ou alors, j'ai une chance du tonnerre depuis 3 ans. ;-)

Les meta:

Je n'utilise plus de meta depuis 2 ans et j'arrive encore à classer sur la première page de Google et d'autres les sites que je conçois. Je parle des keywords et description, même si ce dernier peut être utile dans le cas des annuaires. Les metadonnées comme Dublin Core sont lus par les moteurs internes majeurs mais par aucun moteur grand public. Par contre, il est possible qu'il le soient bientôt. Il s'agit donc d'un investissement.

Pour résumer, faire du XHTML ou du HTML ne change rien, il faut qu'il soit valide et structuré. Si un CMS ou autre permet ça, alors on peut l'utiliser.

Lien vers le commentaire
Partager sur d’autres sites

La sémantique: Je suis intimement persuadé qu'un code structuré (h1, h2, h3, strong, etc) joue dans le référencement. Ou alors, j'ai une chance du tonnerre depuis 3 ans. ;-)

Loin de moi l'intention de distribuer de la moulée à troll, mais qui pourrait bien proclamer le contraire ? Comment une page bien structurée pourrait-elle performer moins bien qu'un page qui ne l'est pas ? Je ne parle pas de comparer une page bien structurée et vide de contenu à une page pleine de contenu ne bénéficiant d'aucune structure, mais bien de comparer deux sites en apparence identiques, mais dont l'un des deux serait sémantiquement bonifié et l'autre, non. Dans un tel cas, qui pourrait avancer que la sémantisation n'apporte rien de concret en matière d'indexation ? :wacko:

Lien vers le commentaire
Partager sur d’autres sites

Comment une page bien structurée pourrait-elle performer moins bien qu'un page qui ne l'est pas ? Je ne parle pas de comparer une page bien structurée et vide de contenu à une page pleine de contenu ne bénéficiant d'aucune structure, mais bien de comparer deux sites en apparence identiques, mais dont l'un des deux serait sémantiquement bonifié et l'autre, non. Dans un tel cas, qui pourrait avancer que la sémantisation n'apporte rien de concret en matière d'indexation ? :wacko:

Aurais-je dis que la structuration n'apportait rien en termes de référencement ? A me relire, je crois bien avoir dit exactement le contraire ;)

La différence que je faisais est entre validité et structuration. Un document peut très bien être excellement structuré... et invalide (il suffit qu'il n'ait pas de DTD ou qu'il comporte une erreur de syntaxe mineure du type <P> en XHTML au lieu de <p>). Les robots des moteurs de recherche ayant jusqu'ici été conçu pour exploiter essentiellement des documents invalides (la majorité des documents Web actuels le sont).... la facilité de traitement que leur apporterait la validité est actuellement toute théorique, AMHA.

La sémantique est encore une autre question. Lorsque j'utilise correctement mes titres <h1>..., j'utilise effectivement l'aspect sémantique du HTML et les robots font de même. Mais aujourd'hui, ils n'ont pas toujours un tel comportement. Par exemple, si je souhaite qu'une page contenant des définitions informelles soit "sémantique", je devrais utiliser l'élément <dfn> :

la <dfn>feurtasse</dfn> est un terme de patois morvandiau désignant une parcelle de terrain en friche.

Mais en pratique, Google ne semble pas exploiter pour l'instant cet élément (du moins, rien ne l'indique d'après le code des pages référencées par google:definition). Ce qu'il exploite manifestement pour repérer des pages contenant ce type de définition, c'est l'élément <strong>... et le <b> :

la <strong>feurtasse</strong> est un terme de patois morvandiau désignant une parcelle de terrain en friche.

la <b>feurtasse</b> est un terme de patois morvandiau désignant une parcelle de terrain en friche.

Le second exemple est le plus pauvre sémantiquement puisque <b> est un élément de présentation non sémantique.... Mais c'est justement celui qui semble avoir le plus de chance d'indiquer une définition informelle à Google ;)

(Pour le vérifier, utilisez google:definition et regardez le code-source des pages qu'il vous trouve. J'y ai trouvé essentiellement des <b>, puis des <strong>, mais jusqu'ici jamais de <dfn>. Et je serais très heureux si quelqu'un avait un contre-exemple !)

Maintenant, vous avez remarqué que j'ai utilisé beaucoup d'expressions du type Aujourd'hui, actuellement, etc. Comme le dit Fabrice à propos des metadonnées Dublin Core, la validité, la sémantique... sont un investissement à faire, dans la mesure où on peut supposer que les moteurs de recherche chercheront à en tirer profit dans l'avenir.

Lien vers le commentaire
Partager sur d’autres sites

Aurais-je dis que la structuration n'apportait rien en termes de référencement ? A me relire, je crois bien avoir dit exactement le contraire ;)

Mais, très illustre confrère, je ne faisais que corroborer vos dires ! ^_^

Lien vers le commentaire
Partager sur d’autres sites

(Pour le vérifier, utilisez google:definition et regardez le code-source des pages qu'il vous trouve. J'y ai trouvé essentiellement des <b>, puis des <strong>, mais jusqu'ici jamais de <dfn>. Et je serais très heureux si quelqu'un avait un contre-exemple !)

Et bien, je suis désolé de conclure que vraisemblablement, <dfn> n'est pas pris en compte par Google. Une vingtaine de tentatives plus tard, je n'ai trouvé que des définitions balisées par l'élément <b>, pas même un tout petit <strong>, qui aurait été déjà beaucoup moins pire. Parmi celles que j'ai retenue, je vous partage ma préféfée :

<font face="Arial, Helvetica, sans-serif" size="2"><b><font color="#000066"><a name="c4"></a>Catastrophe</font></b>
A catastrophe (as related to insurance) is a large and multiple series of losses beyond normal expectation or reasonable anticipation of loss by that particular cause of loss. For example, hurricanes causing very substantial damage, extended damage by flood, fire involving large areas, etc.</font>

Source : http://www.believerplus.com/glossary.html

C'est quans même décevant de constater que l'outil de référence par excellence parmi les moteurs de recherche accorde si peu d'importance à une saine gestion du code...

Lien vers le commentaire
Partager sur d’autres sites

w0w, on va essayer de reprendre tout ca point par point .. ;)

Je pense que pour un CMS, je perdrais sur mon référencement car mes méta seront les même sur toutes mes pages (articles, brèves,etc....) exeptés les title, non ??

Donc, j'y perdrais en référencement mais j'y gagnerais en gain de temps pour mes mises à jour.

Est ce quelque chose t'empeche de customiser ton CMS voire SPIP directement pour avoir des metas qui correspondent exactement au contenu des pages que tu généras ?

Avec un site XHTML ou HTML, je pourrais orienté mes métas différenment sur chaque page et donc les orienté sur les sujets et mots que je souhaite, donc j'y gagnerais en matière de référencement mais j'y passerais plus de temps.

Euh ok, mais les métas ne feront pas tout ton référencement. Ce n'est qu'une infime partie qui est prise en compte par Google, cela doit representer moins de 1% de ce qu'il prend en compte pour positionner un site.

Du coup, est ce réellement utile de passer du temps à résoudre un problème qui n'en est pas un ?

Je n'ai pas testé SPIP sur ce point précis, mais :

- la génération de métadonnées robots, mot-clé, description, date de publication et et de mise à jour, etc. est effectivement un point faible de tous les CMS que j'ai rencontré.

- le fond du problème, AMHA, est que ces métas recèlent un énorme potentiel (voir le Dublin Core)... qui reste potentiel faute de prise en compte déterminante par les moteurs.

Donc, sous cet angle, je ne crois pas que ce soit une question avec laquelle il faille se prendre la tête actuellement. Qu'en pensent les spécialistes en référencement ?

Je rejoins complètement cet avis. Pour la génération de métadonnés, je conseillerais le tuning de CMS mais comme dit plus haut, c'est perdre beaucoup de temps pour pas grand chose.

Concernant les Dublin Core, cela fait au moins 5 ans que j'en entends parler, et nous avons là une vrai spécification qui permettrait de faire un joli ménage dans les outils de recherche couplé à de l'algo classique actuel.

Mais malheureusement, et je ne sais pour quelles raisons, les DC n'ont jamais eu le succès qu'elles méritaient (les balises)

Faire du code valide le rend lisible et compréhensible par une machine et par conséquent par un robot.

La conclusion est un peu rapide à mon goût si quand on parle de robot, on parle de spider ou crawler des outils de recherche.

La sémantique:

Je suis intimement persuadé qu'un code structuré (h1, h2, h3, strong, etc) joue dans le référencement. Ou alors, j'ai une chance du tonnerre depuis 3 ans. ;-)

Le h1 est effectivement trés bien pris en compte par google, pour les autres hx, rien ne prouve qu'elles sont efficaces et prises en compte et je n'ai jamais réussi à démontrer que h1+h2+h4 était plus performant qu'un vil h1, un <p> + un vieux <b> à la place d'un <strong>. C'est uniquement mon expérience de référenceur qui parle ..

Les meta:

Je n'utilise plus de meta depuis 2 ans et j'arrive encore à classer sur la première page de Google et d'autres les sites que je conçois. Je parle des keywords et description, même si ce dernier peut être utile dans le cas des annuaires. Les metadonnées comme Dublin Core sont lus par les moteurs internes majeurs mais par aucun moteur grand public. Par contre, il est possible qu'il le soient bientôt. Il s'agit donc d'un investissement.

En effet, ca ne coute pas grand chose, et en plus, même si elles ne sont pas prises en comptes comme ce qu'elles sont réellement : des DC, données d'indexation, elles ont en tous les cas l'avantage de créer du contenu supplémentaire qui, lui, est bien lu par Google et pris en compte comme du texte classique.

Pour résumer, faire du XHTML ou du HTML ne change rien, il faut qu'il soit valide et structuré. Si un CMS ou autre permet ça, alors on peut l'utiliser.

Conclusion encore trop hative à mon goût (toujours dans une optique de référencement).

Loin de moi l'intention de distribuer de la moulée à troll, mais qui pourrait bien proclamer le contraire ? Comment une page bien structurée pourrait-elle performer moins bien qu'un page qui ne l'est pas ? Je ne parle pas de comparer une page bien structurée et vide de contenu à une page pleine de contenu ne bénéficiant d'aucune structure, mais bien de comparer deux sites en apparence identiques, mais dont l'un des deux serait sémantiquement bonifié et l'autre, non. Dans un tel cas, qui pourrait avancer que la sémantisation n'apporte rien de concret en matière d'indexation ?

Le troll était déjà lancé Denis ;)

Pour répondre à ta question, tout simplement car une page structurée et valide ne correspond pas aux critères de sélection et surtout de classement d'outils de recherche majeurs, notamment des outils comme Google.

Ainsi, à contenu identique, une page w3c ready aura un classement inférieur à une page search engine ready qui va utilisé un <b> plutôt qu'un <strong> car le <b> donne de biens meilleurs résultats qu'un strong. De même, les vieilles balises FONT complètement obsolète sont tout autant d'indications qu'on donne à Google pour lui faire comprendre, selon sa manière de trier les résultats aujourd'hui, que si on rajoute un font à cette partie du texte, c'est qu'elle est importante. Chose qu'il incapable de détecter aujourd'hui avec un div ou tout autre attribut qui bénéficierait d'un style précis via son ID ou son CLASS.

Pour finir, je rejoins complètement l'avis de LaurentDenis, lorsqu'il explique que les robots des moteurs de recherche ont été conçu pour exploiter des documents invalides (les crawlers ou spiders sont encore des navigateurs de version 1 bien que quelques améliorations leur ont été apporté. Par exemple, les liens JS ne sont pris en compte par Google et suivi que depuis 3 mois, et pourtant ou est la difficulté de suivre ces liens ?).

Il est donc encore trés théorique et surtout utopique de penser qu'un Google pourrait arriver aujourd'hui à 'comprendre' un document valide. Pour cela, il faudrait d'abord que les spécialistes de la sémantique s'accordent vraiment sur le vrai bon usage de chacunes des balises existantes, et apparemment, ne serait ce qu'en lisant ce post, ce n'est pas encore le cas (voir ex de Laurent du h1 vs dfn).

Comme le dit trés bien Laurent (décidément :P), Google n'exploite pas encore ses possibilités et ne va même pas aujourd'hui dans ce sens. Par contre, il est clair que les potentialités de ce côté en terme d'indexation et de pertinence en utilisant la sémantique au sens d'un code propre, valide et bien structuré serait certainement la clé de la pertinence des résultats de demain, et ce, quasi sans faille.

En conclusion, un site valide c'est trés bien, mais il faut laisser le temps aux outils de recherche d'apprendre la sémantique et l'accessibilité pour pouvoir vous en servir en référencement ;)

Lien vers le commentaire
Partager sur d’autres sites

Je ne vois qu'une façon de résoudre le problème une fois pour toutes : créer deux instances de la même page, une balisée sémantiquement et l'autre codée avec les pieds. Ensuite, attendre de voir laquelle des deux performe le plus chez Google...

Lien vers le commentaire
Partager sur d’autres sites

Je ne vois qu'une façon de résoudre le problème une fois pour toutes : créer deux instances de la même page, une balisée sémantiquement et l'autre codée avec les pieds. Ensuite, attendre de voir laquelle des deux performe le plus chez Google...

J'ai déjà tenté cette expérience il y a quelques mois, de manière totalement confidentielle pour éviter que les problèmes de backlinks, de PR, etc. ne viennent fausser le résultat.

Le bilan est... qu'il est justement impossible, AMHA, d'isoler ces paramètres "sémantique/non sémantique" et d'être sûr qu'aucun des autres paramètres utilisés par Google n'interfère.

En fait, le fonctionnement de Google est (volontairement) trop adapté à un Web codé avec les pieds pour qu'on puisse avancer autre chose que quelques hypothèses temporaires:

- Google prend en compte certains éléments sémantiques et pas d'autres, sans que ces choix soient forcément cohérent;

- Le poids relatif des éléments sémantiques bien utilisés et de la soupe de tag est parfois en faveur de la soupe : <b> plutôt que <strong>, par exemple. Ce qui est logique puisque Google "colle" aux pratiques majoritaires des auteurs. Mais pas toujours : <h1> plutôt que les <FONT>...

- L'évolution de Google elle-même ne semble pas aller dans une direction bien précise. Jusqu'à ces derniers temps, on pouvait par exemple constater que Google prenait en compte un îlot de données RDF dans un document XHTML pour en extraire une description visible dans la page de résultats. Mais les pages-tests que j'ai pu voir ne semblent plus fonctionner ainsi depuis le début du printemps...

C'est pourquoi j'en resterai à cette position "minimaliste" : un document valide, bien structuré et soucieux d'une sémantique (X)HTML élémentaire ne nuit apparemment pas au référencement actuel... et a des chances de favoriser le référencement futur.

Tiens, pour la petite histoire, un autre aspect amusant de Google : il semble acquis qu'il exploite le contenu des attributs alt des images, je crois, du côté référencement. Mais si tu prends Google Translate, tu verras qu'il ne traduit pas le contenu des attributs alt :P

(En revanche, Babel Fish le fait...)

Modifié par LaurentDenis
Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...