Une tentative de définition du spamdexing

Si l’on considère les origines du mot spam [1], on pourrait définir tout simplement le spam dans les moteurs de recherche comme :

« la présence de pages non désirées, dans les résultats d’un moteur de recherche ».

On voit tout de suite que la notion de spam a un caractère sujectif (dépendant du sujet). Le spam de Pierre n’est donc pas exactement le spam de Paul. Mais Pierre et Paul peuvent tomber d’accord pour qualifier de « spam » les mêmes résultats.

Les origines du mot « spam »
Le terme « spam » est devenu d’utilisation courante, au point que l’on commence à voir fleurir des dérivés de ce mot : comme antispam ou… spamdexing. Il désigne généralement ce que l’on doit nommer en français « pourriel », c’est à dire les emails non sollicités.


Mais ce terme ne veut rien dire en anglais… Le mot spam est repris d’une marque de viande de porc en boîte, commercialisée par Hormel Foods Corporation, une société américaine qui a fourni pendant des dizaines d’années l’armée américaine.

Les boîtes de SPAM [2] ont envahi pendant la deuxième guerre mondiale les garde-manger britanniques, car c’était l’une des seules sources de viande non rationnées. Le « SPAM » est donc resté, dans la mémoire collective, un symbole des restrictions, à l’image des rutabagas en France…

Mais quel rapport entre des boîtes de conserve remplies d’épaule de porc de cuite et le web ??

Réponse : une chanson dans un sketch des Monty Python…

Man (Eric Idle) : You sit here, dear.

Wife (Graham Chapman in drag) : All right.

Man (to Waitress) : Morning !

Waitress (Terry Jones, in drag as a bit of a rat-bag) : Morning !

Man : Well, what’ve you got ?
Waitress : Well, there’s egg and bacon ; egg sausage and bacon ; egg and spam ; egg bacon and spam ; egg bacon sausage and spam ; spam bacon sausage and spam ; spam egg spam spam bacon and spam ; spam sausage spam spam bacon spam tomat and spam ;

(Monty Python Flying Circus, episode 25, première diffusion le 15 décembre 1970)

Inutile d’expliquer plus avant pourquoi le terme a fait florès

Par ailleurs, Pierre peut travailler dans un moteur de recherche, Paul chez un cybercommerçant, et Jacques être un simple internaute à la recherche d’infos sur la Colombie.

Le point de vue de l’internaute
Jacques cherche des infos sur la Colombie. Il tape le mot clé « Colombie » dans un moteur de recherche, et observe la page de résultats… Jacques clique sur les cinq premiers résultats, dans le désordre en fonction du « snippet », et peste contre « ce-damné-moteur-qui-ne-sait-pas-éliminer-le-spam » car ses quatre premières tentatives le font tomber sur :
- une page d’un tour operator, qui ne contient aucune info utile pour lui
- une page d’un affilié d’un site de voyages, qui n’affiche rien d’autres que des liens publicitaires [3]
- une page satellite d’une agence de voyages
- une page sur la Colombie Britannique… (où il fait moins chaud, c’est sûr, surtout en décembre).

Le point de vue du cybercommerçant
Le cybercommerçant, lui, pestera également contre la page de résultats mais pour des raisons différentes. Etre derrière la page sur la Colombie Britannique, et la page de Wikipedia sur la Colombie l’agace : ces pages purement informatives gênent la visibilité de sa boutique en ligne. Même chose pour la page du scraper site qui « squatte » une position devant lui, le concurrent qui triche avec une page satellite, alors qu’il ne vend pas de voyages en Colombie,

Le point de vue du moteur
Un moteur de recherche lui, aura une vision plus limitative du spam. Le moteur va essentiellement considérer comme « spam » :
- soit une page conçue spécialement pour les robots d’indexation, qui renvoie vers un contenu différent (la page satellite de l’agent de voyages)
- soit une page dont le contenu est « optimisé » pour qu’elle arrive en tête des résultats d’un moteur, mais qui ne contient pas d’informations utiles pour l’internaute, et dont la présence est donc jugée comme indésirable

Pour comprendre le point de vue des moteurs, on se référera par exemple :
- aux guidelines de Google
- aux guidelines de MSN
- et surtout aux guidelines de Yahoo, que je trouve particulièrement claires et précises

Voici un extrait du document de Yahoo :


Pages indexées en priorité par Yahoo !

* Contenu original pour des pages de valeur.
* Pages conçues en premier lieu pour des humains (les optimisations pour moteurs d’indexation sont secondaires).
* Hyperliens vraiment utiles, pointant sur des pages au contenu intéressant.
* Titre et description dans les balises META et HEAD (par exemple) qui décrivent précisement votre contenu.
* Bon design de pages, en général.

Malheureusement, toutes les pages Web n’ont pas de contenu utile pour un humain. Certaines sont même crées dans le but de tromper notre robot d’indexation avec du contenu inapproprié, redondant ou de mauvais qualité (nous appelons cela du « spam »).

Pages considérées comme mauvaises
Quelques exemples (liste non exhaustive 🙂 de pages que Yahoo ! ne veut pas dans son index :

* Pages qui nuisent à la pertinence ou à la diversité des résultats de recherche.
* Pages ne servant qu’à diriger l’internaute vers une autre page.
* Pages au contenu substantiellement identique à celui d’autres pages existantes.
* Sites possédant de nombreuses URL virtuelles.
* Pages générées automatiquement en grand nombre et de peu d’intérêt.
* Pages usant d’astuces pour artificiellement augmenter leur classement.
* Utilisation de texte invisible pour l’internaute.
* Pages ne présentant pas le même contenu à notre robot qu’aux internautes.
* Pages pointant les unes vers les autres dans de grandes proportions.
* Pages utilisant de façon abusive le nom d’un concurrent.
* Différents sites offrant le même contenu.
* Pages utilisant de trop nombreux pop-ups.

Le point de vue du moteur est donc de chasser de son index les pages jugées « non pertinentes ». Notons au passage que cette notion de pertinence est tout aussi subjective que celle du spam, et que si certaines pages seront jugées comme non pertinentes par l’ensemble des internautes, ce jugement peut être beaucoup plus partagé pour d’autres types de pages.


On peut donc en conclure que, s’il est facile de définir le spam dans un moteur de recherche, qualifier une page de « spam » pose un certain nombre de problèmes :
- le statut « spam ou non spam » d’une page dépend du point de vue de la personne qui observe la page de résultats
- une même personne change de point de vue, en fonction de ses objectifs de recherche (Jacques, après avoir cherché des infos sur la Colombie, aura envie d’aller y passer des vacances : il va chercher un voyage, et les pages qui vont l’intéresser cette fois-ci seront les résultats des cybermarchands ! D’ailleurs, il finira par cliquer sur un lien sponsorisé, car il a déjà utilisé les services du tour-operator qui apparaît là).
- webmasters et moteurs de recherche ont des intérêts divergents. Leurs critères de « qualité de l’index » reposent dans les deux cas sur des notions totalement biaisées.

La lutte du Bien contre le Mal : quand la morale juge le spamdexing

Jusqu’ici, nous nous sommes cantonnés à constater que des pages pouvaient être considérées comme du spam par des internautes essentiellement parce qu’elles réduisaient la visibilité ou l’accessibilité de pages utiles, ou parce que leur présence était jugée simplement perturbante, agaçante par l’internaute.

Yahoo se cantonne à lister le type de pages qu’il souhaite chasser de son index. Mais pas de jugements de valeur sur les motivations des auteurs de ces pages, et encore moins sur les auteurs de ces pages.

Mais cette attitude très neutre (que l’on retrouve également dans le discours MSN) n’est pas celle de tout le monde. Il s’avère difficile de parler de spamdexing, sans que tout de suite la morale s’en mêle.

« Le spamdexing c’est mal » est en effet un gimmick que l’on retrouve fréquemment dans les forums de webmastering. Il y’aurait des méthodes « propres » et des méthodes de voyou. On oppose souvent « black hats » et « white hats » parmi les référenceurs, en fonction du caractère « admissible » ou « non » de leurs méthodes…

Google s’est fait le chantre principal de ce discours moralisateur. Un discours qui en dit long sur les valeurs véhiculées au sein de l’entreprise : il existe une véritable idéologie chez Google, société privée qui visiblement se sent investi d’une mission universelle. [4]

Concernant le discours de Google, on peut aussi citer la page très dure sur les seo : http://www.google.fr/webmasters/seo.html

« relativisme » contre « morale »

Ce discours sur les spammeurs « suppôts de Satan », travaillant à détruire le Paradis (ce web pur et parfait qui ne contient que des pages d’information utiles), perverti par l’argent, et par les intérêts commerciaux ou politiques, ce monde de « tricheurs », opposé au monde des gentils webmasters qui participent à la Bibliothèque Universelle parfaite que doit devenir Google, relève d’un absolu qui n’a pas lieu d’être dans le domaine des outils de recherche.

Attention. Toutes les méthodes ne se valent pas ! Il ne faut pas tomber dans le relativisme total, qui conduirait à dire que l’on ne peut pas être objectif, et que donc la morale n’a rien à faire là dedans…

Donc oui, on peut clairement identifier, que certaines méthodes sont répréhensibles, car elles font subir un préjudice réel à des acteurs.

Le document émanant du programme Google Eval : »Spam Recognition Guide for Raters » est à ce titre un excellent exemple, très opérationnel, montrant que l’on peut, avec un minimum de subjectivité, identifier les pages qui relèvent du spam. En creux, on y lit aussi ce que l’algorithme ne sait pas déterminer automatiquement, et ce que des humains savent évaluer : cela confirme quelque chose que l’on constate tous les jours, l’algorithme de Google ne permet pas encore d’éliminer automatiquement de nombreuses formes de spam.


Dans mon prochain article (« une taxonomie du spamdexing ») je liste la plupart des méthodes connues pour « doper » le classement d’une page dans les moteurs de recherche. On verra donc qu’identifier les méthodes est assez aisé, et qu’en plus, on peut aussi identifier clairement les motivations qui entrainent l’utilisation de telle ou telle méthode. A partir de là, il est facile d’établir quelles méthodes visent à tromper l’internaute, ou à créer des pages faussement pertinentes.

Je fais cet aparté pour les tenants du « relativisme » concernant l’opposition « white hat/black hat », dont certains fréquentent le Hub.

Le problème, c’est que les mêmes méthodes utilisées dans un autre contexte peuvent aussi réparer des injustices.

Les méthodes ne sont donc pas toujours en cause : c’est la fin le plus souvent, plus que les moyens, qui permettra de qualifier la méthode de spamdexing.

Les méthodes ne sont pas toujours neutres, et certaines sont clairement répréhensibles : la fin ne justifie pas toujours les moyens.

Les moteurs et leur violence légitime

Les moteurs de recherche ne sont pas de simples observateurs extérieurs à l’objet sur lequel ils travaillent (le World Wide Web). Les moteurs de recherche sont des acteurs du web, ils en font partie, et l’influencent fortement. En « organisant l’information » (pour reprendre les termes de la mission de Google), les moteurs entrent dans l’arène, et leur comportement a des conséquences, de plus en plus importantes avec le temps qui passe.

Il est clair que les moteurs détiennent aujourd’hui un pouvoir important : ce sont des « faiseurs de roi ». C’est de plus en plus l’algorithme de classement de Google qui détermine si un site sera visible ou pas sur le web, donc visité, donc aura du succès, et éventuellement gagnera de l’argent. Avec Adwords et Adsense (ou Overture pour Yahoo), on assiste en plus à la création d’un système de redistribution des revenus du web, qui, si on l’ose, ressemble un peu à celui d’un Etat.

Et, à l’image d’un Etat, les moteurs dictent de plus en plus leur loi sur le Net. Cela sous-entend une certaine « violence », une certaine « contrainte ».

Tout irait pour le mieux dans le meilleur des mondes possibles si, comme ils le prétendent, les algorithmes des moteurs étaient parfaits, réellement capables de renvoyer les pages pertinentes recherchées par les internautes.

Or, les algorithmes des moteurs grand public actuels sont loin de cette perfection : ils sont ultra sensibles au spam, ne comprennent pas le sens des requêtes, ne voient qu’une partie de l’information, confondent les homonymes, et accordent de l’importance selon des critères qui reposent sur des fondements réels.

Cela signifie qu’un tel moteur engendre des injustices : des pages utiles, pertinentes, ne sont pas visibles.

Dans ces conditions, il y’a véritablement un conflit d’intérêt très vif entre des webmasters dont les pages sont parfois injustement traitées par les moteurs, et les outils de recherche.

C’est un véritable ressentiment à l’égard du moteur qui s’exprime alors, dont la forme la plus douce est un appel du genre « mais que fait la Police » transposé en « mais que diable fait donc Google contre ça ? ».

Le spamdexing : facile à définir, difficile à identifier objectivement, compliqué à éliminer, alors qu’il est dépendant de puissants intérêts économiques, et devient la cible d’ enjeux de plus en plus importants

Pour conclure, on a vu que si le spamdexing était facile à définir, l’identifier systématiquement et objectivement est une véritable gageure, car des acteurs différents auront une conception différente de ce qui est, ou n’est pas du spam. Ce qui ne veut pas dire que tout le monde ne peut pas s’accorder sur le statut de spam de certaines pages.

Ensuite, déterminer ce qui relève ou non du spam est également quelque chose de relatif : qui fixe les règles ? Réponse : les moteurs, en grande partie. Or les moteurs n’ont pas toujours raison, ce qui veut dire que les croisades contre spammeurs reposent parfois sur des justications et des légitimations fragiles ou contestables (et de plus en plus contestées).

Dans ces conditions, les discours « moraux » et les critiques sur les méthodes utilisées sonnent souvent faux. La distinction qui est faite entre le « bien » et le « mal » n’est pas aussi claire que certains le prétendent, surtout du côté des moteurs. Il ne doit pas y avoir confusion entre objectifs économiques, voire objectifs de pouvoir pour mieux imposer ses produits, et des objectifs de rendre au web sa pureté et sa perfection.

Mais il ne faut pas tomber dans le travers inverse, qui consiste à dire que la fin justifie les moyens. Car il existe des règles qui ne sont pas celles des moteurs, qui sont celles de la vie en société et imposées dans un contexte d’état de droit.

Ces règles permettent parfaitement de savoir ce qui est légal et ce qui ne l’est pas, ce qui est licite et illicite, ce qui est désiré et non désiré. On peut parier sur l’apparition prochaine d’une jurisprudence, voire d’une réglementation autour de certaines pratiques déloyales autour du spamdexing.

Car le problème, c’est que les sommes et les intérêts en jeu deviennent plus considérables avec chaque année, chaque mois, chaque jour qui passe. La « tricherie » paie encore, et il y’aura forcément un retour de bâton…

Philippe YONNET


[1] le courriel non sollicité, voir aussi l’encadré sur les origines du mot

[2] la marque s’écrit désormais en majuscules, car elle n’aime pas trop être associée aux pourriels : c’est assez compréhensible

[3] une étude américaine sur les « scraper sites », les sites qui ne font qu’afficher des flux en marque blanche, des catalogues xml, et/ou des liens sponsorisés, a donné un résultat intéressant sur leur caractère de « spam ». Les moteurs de recherche (Google en tête) les considèrent comme du spam, et ont commencé à les éliminer systématiquement. Les utilisateurs interrogés, quand ils trouvent une de ces pages en tête des résultats, ne les considèrent pas comme du spam et considèrent ces pages comme utiles ! Cela s’interprète facilement en pensant que la page d’un « scraper site » crée souvent une porte d’entrée directe vers un élément précis d’un catalogue qu’il n’est pas toujours facile d’explorer avec les outils fournis par le site d’origine…

[4] Voici quelques exemples parlants, relevés ça et là.


[extrait de http://www.google.fr/intl/fr/corporate/]


Présentation de la société

Google a pour mission d’organiser à l’échelle mondiale les informations dans le but de les rendre accessibles et utiles à tous.


Une mission bien vaste pour une simple entreprise privée

[extrait de http://www.google.fr/intl/fr/why_use.html]


PageRank
PageRank est un champion de la démocratie : il profite des innombrables liens du Web pour évaluer le contenu des pages Web — et leur pertinence vis-à-vis des requêtes exprimées.


le Pagerank, reflet du vote des webmasters sur la qualité d’une page : un mythe qui ne résiste pas à l’analyse scientifique. Quelle proportion des liens en 2005 est générée par ce type de motivation ? L’allusion à la démocratie fait clairement appel à une justification politique du classement de l’importance des pages web effectué par Google. Singulier…


Avec la recherche Google, vous disposez d’une solution simple, rapide, honnête et objective pour trouver des sites Web de la plus haute qualité et dont les informations répondent parfaitement à vos besoins.


objective ? Google estime donc être objectif dans ses choix de critères, et ses concurrents ont tort de classer les sites différemment. Le terme « honnête », très moral, sonne curieusement pour une page de résultats. Il y’aurait donc des pages de résultats malhonnêtes. En poussant un peu, il y’a des pages de résultats qui peuvent donc mener leurs auteurs en prison !


Google, la fin du chaos !
Google maîtrise l’information en proposant un nouveau type de recherche : non pas un annuaire à portée limitée ni une liste de résultats adjugés à la plus forte enchère, mais une solution ingénieuse et efficace qui organise le Web en tenant compte de sa structure vaste et démocratique.


La fin du chaos : on entre dans un discours quasi messianique. Google a une mission, celle de sauver le web, soumis au chaos, en l’organisant (le web est-il le chaos décrit par Google ? Google est-il le seul acteur à organiser le web ? Google est il un facteur d’entropie, ou de négantropie). Google « maîtrise l’information ». Et la structure du web est « démocratique » (bis) : ah bon ? C’est le peuple qui gouverne le web ?

Encore plus parlant : Google a une « philosophie », et une page complète en 10 points pour l’exposer »

[extrait de http://www.google.fr/intl/fr/corporate/tenthings.html]


4. La démocratie fonctionne sur le Web.


encore et toujours cette référence à la démocratie…


6.Il est possible de gagner de l’argent sans vendre son âme au diable.


Le mythe de Faust ! Et le diable n’est donc pas loin…