|
Site Web : Pnambique Directeur du Pôle Experts de la société @position http://www.aposition.com Articles de l'auteur : La détection du Link Spam : un challenge pour les moteurs [3/4] La détection du Link Spam : un challenge pour les moteurs [2/4] La détection du Link Spam : un challenge pour les moteurs [Bibl.] La détection du Link Spam : un challenge pour les moteurs [1/4] Cuill veut surpasser Google grâce à l’analyse de données sémantiques 2007 : l’année des moteurs furtifs L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.4] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.3] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.2] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.1] Joachim Kreibich (Seekport) : pour nous, un moteur de recherche de qualité doit tenir compte des particularismes linguistiques nationaux, voire régionaux Une tentative de définition du spamdexing Google Base dévoilé ! Les concepts de la POO La programmation objet : qu’est-ce que c’est ? à quoi ça sert ? Gregory Olivier "MSN Search cherche à établir un véritable dialogue avec les webmasters et les référenceurs" Direct Answers from Encarta MSN Search utilise-t’il l’analyse au niveau des blocs ? Spyware : les méthodes pour s’en débarasser Michael James, de la société Mirago "Nous misons sur nos partenaires pour développer notre visibilité" La sémantique appliquée et les outils de recherche [2/6] Linguistique statistique et sémantique appliquée : outil de pertinence pour les moteurs, de KM et de référencement ANALYSE THEMATIQUE (4/4) par le Pr E. Garcia ANALYSE THEMATIQUE (3/4) par le Pr E. Garcia Applications des outils sémantiques au référencement et aux moteurs de recherche Sémantique appliquée : Liens et références bibliographiques ANALYSE THEMATIQUE (2/4) par le Pr E. Garcia ANALYSE THEMATIQUE (1/4) par le Pr E. Garcia CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [3] Mon premier programme en PHP (3e Partie) CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2] CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [1] Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin) Quelques pistes pour comprendre le nouvel algorithme de Google FOOXX, le moteur futé venu d’Allemagne Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ? Mooter, un moteur de recherche innovant venu d’Australie Les techniques évoluées d’indexation dans les moteurs de recherche (2e partie) Visibilité et stratégies de développement d’audience sur le Web Les techniques évoluées d’indexation dans les moteurs de recherche L’algorithme HITS et le projet CLEVER (deuxième partie) L’algorithme HITS et le projet CLEVER La structure du web est en forme de "noeud papillon" Webfountain d’IBM Vers un moteur de recherche sensible au contexte (1ère partie) Vers un moteur de recherche sensible au contexte (2ème partie) Vers un moteur de recherche sensible au contexte (3ème partie) Droit d’auteur et site web Droit d’auteur et site web (2e Partie) Droit des producteurs de bases de données (législation française) Tester correctement variables et valeurs en php Mon premier programme en PHP (2e Partie) Les nouveautés de la version 5 de PHP Les origines du PHP Mon premier programme en PHP Pourquoi choisir le PHP pour réaliser des pages dynamiques ? |
Une tentative de définition du spamdexing
Une tentative de définition du spamdexingQu’est-ce qui permet de déterminer si une page est du spam ou non ?6 novembre 2005, par CaribooUne tentative de définition du spamdexingSi l’on considère les origines du mot spam [1], on pourrait définir tout simplement le spam dans les moteurs de recherche comme :
On voit tout de suite que la notion de spam a un caractère sujectif (dépendant du sujet). Le spam de Pierre n’est donc pas exactement le spam de Paul. Mais Pierre et Paul peuvent tomber d’accord pour qualifier de "spam" les mêmes résultats.
Par ailleurs, Pierre peut travailler dans un moteur de recherche, Paul chez un cybercommerçant, et Jacques être un simple internaute à la recherche d’infos sur la Colombie. Le point de vue de l’internaute
Le point de vue du cybercommerçant
Le point de vue du moteur
Pour comprendre le point de vue des moteurs, on se référera par exemple :
Voici un extrait du document de Yahoo :
Le point de vue du moteur est donc de chasser de son index les pages jugées "non pertinentes". Notons au passage que cette notion de pertinence est tout aussi subjective que celle du spam, et que si certaines pages seront jugées comme non pertinentes par l’ensemble des internautes, ce jugement peut être beaucoup plus partagé pour d’autres types de pages.
La lutte du Bien contre le Mal : quand la morale juge le spamdexingJusqu’ici, nous nous sommes cantonnés à constater que des pages pouvaient être considérées comme du spam par des internautes essentiellement parce qu’elles réduisaient la visibilité ou l’accessibilité de pages utiles, ou parce que leur présence était jugée simplement perturbante, agaçante par l’internaute. Yahoo se cantonne à lister le type de pages qu’il souhaite chasser de son index. Mais pas de jugements de valeur sur les motivations des auteurs de ces pages, et encore moins sur les auteurs de ces pages. Mais cette attitude très neutre (que l’on retrouve également dans le discours MSN) n’est pas celle de tout le monde. Il s’avère difficile de parler de spamdexing, sans que tout de suite la morale s’en mêle. "Le spamdexing c’est mal" est en effet un gimmick que l’on retrouve fréquemment dans les forums de webmastering. Il y’aurait des méthodes "propres" et des méthodes de voyou. On oppose souvent "black hats" et "white hats" parmi les référenceurs, en fonction du caractère "admissible" ou "non" de leurs méthodes... Google s’est fait le chantre principal de ce discours moralisateur. Un discours qui en dit long sur les valeurs véhiculées au sein de l’entreprise : il existe une véritable idéologie chez Google, société privée qui visiblement se sent investi d’une mission universelle. [4] Concernant le discours de Google, on peut aussi citer la page très dure sur les seo : http://www.google.fr/webmasters/seo.html "relativisme" contre "morale" Ce discours sur les spammeurs "suppôts de Satan", travaillant à détruire le Paradis (ce web pur et parfait qui ne contient que des pages d’information utiles), perverti par l’argent, et par les intérêts commerciaux ou politiques, ce monde de "tricheurs", opposé au monde des gentils webmasters qui participent à la Bibliothèque Universelle parfaite que doit devenir Google, relève d’un absolu qui n’a pas lieu d’être dans le domaine des outils de recherche. Attention. Toutes les méthodes ne se valent pas ! Il ne faut pas tomber dans le relativisme total, qui conduirait à dire que l’on ne peut pas être objectif, et que donc la morale n’a rien à faire là dedans... Donc oui, on peut clairement identifier, que certaines méthodes sont répréhensibles, car elles font subir un préjudice réel à des acteurs. Le document émanant du programme Google Eval :"Spam Recognition Guide for Raters" est à ce titre un excellent exemple, très opérationnel, montrant que l’on peut, avec un minimum de subjectivité, identifier les pages qui relèvent du spam. En creux, on y lit aussi ce que l’algorithme ne sait pas déterminer automatiquement, et ce que des humains savent évaluer : cela confirme quelque chose que l’on constate tous les jours, l’algorithme de Google ne permet pas encore d’éliminer automatiquement de nombreuses formes de spam.
Le problème, c’est que les mêmes méthodes utilisées dans un autre contexte peuvent aussi réparer des injustices. Les méthodes ne sont donc pas toujours en cause : c’est la fin le plus souvent, plus que les moyens, qui permettra de qualifier la méthode de spamdexing. Les méthodes ne sont pas toujours neutres, et certaines sont clairement répréhensibles : la fin ne justifie pas toujours les moyens. Les moteurs et leur violence légitime Les moteurs de recherche ne sont pas de simples observateurs extérieurs à l’objet sur lequel ils travaillent (le World Wide Web). Les moteurs de recherche sont des acteurs du web, ils en font partie, et l’influencent fortement. En "organisant l’information" (pour reprendre les termes de la mission de Google), les moteurs entrent dans l’arène, et leur comportement a des conséquences, de plus en plus importantes avec le temps qui passe. Il est clair que les moteurs détiennent aujourd’hui un pouvoir important : ce sont des "faiseurs de roi". C’est de plus en plus l’algorithme de classement de Google qui détermine si un site sera visible ou pas sur le web, donc visité, donc aura du succès, et éventuellement gagnera de l’argent. Avec Adwords et Adsense (ou Overture pour Yahoo), on assiste en plus à la création d’un système de redistribution des revenus du web, qui, si on l’ose, ressemble un peu à celui d’un Etat. Et, à l’image d’un Etat, les moteurs dictent de plus en plus leur loi sur le Net. Cela sous-entend une certaine "violence", une certaine "contrainte". Tout irait pour le mieux dans le meilleur des mondes possibles si, comme ils le prétendent, les algorithmes des moteurs étaient parfaits, réellement capables de renvoyer les pages pertinentes recherchées par les internautes. Or, les algorithmes des moteurs grand public actuels sont loin de cette perfection : ils sont ultra sensibles au spam, ne comprennent pas le sens des requêtes, ne voient qu’une partie de l’information, confondent les homonymes, et accordent de l’importance selon des critères qui reposent sur des fondements réels. Cela signifie qu’un tel moteur engendre des injustices : des pages utiles, pertinentes, ne sont pas visibles. Dans ces conditions, il y’a véritablement un conflit d’intérêt très vif entre des webmasters dont les pages sont parfois injustement traitées par les moteurs, et les outils de recherche. C’est un véritable ressentiment à l’égard du moteur qui s’exprime alors, dont la forme la plus douce est un appel du genre "mais que fait la Police" transposé en "mais que diable fait donc Google contre ça ?". Le spamdexing : facile à définir, difficile à identifier objectivement, compliqué à éliminer, alors qu’il est dépendant de puissants intérêts économiques, et devient la cible d’ enjeux de plus en plus importantsPour conclure, on a vu que si le spamdexing était facile à définir, l’identifier systématiquement et objectivement est une véritable gageure, car des acteurs différents auront une conception différente de ce qui est, ou n’est pas du spam. Ce qui ne veut pas dire que tout le monde ne peut pas s’accorder sur le statut de spam de certaines pages. Ensuite, déterminer ce qui relève ou non du spam est également quelque chose de relatif : qui fixe les règles ? Réponse : les moteurs, en grande partie. Or les moteurs n’ont pas toujours raison, ce qui veut dire que les croisades contre spammeurs reposent parfois sur des justications et des légitimations fragiles ou contestables (et de plus en plus contestées). Dans ces conditions, les discours "moraux" et les critiques sur les méthodes utilisées sonnent souvent faux. La distinction qui est faite entre le "bien" et le "mal" n’est pas aussi claire que certains le prétendent, surtout du côté des moteurs. Il ne doit pas y avoir confusion entre objectifs économiques, voire objectifs de pouvoir pour mieux imposer ses produits, et des objectifs de rendre au web sa pureté et sa perfection. Mais il ne faut pas tomber dans le travers inverse, qui consiste à dire que la fin justifie les moyens. Car il existe des règles qui ne sont pas celles des moteurs, qui sont celles de la vie en société et imposées dans un contexte d’état de droit. Ces règles permettent parfaitement de savoir ce qui est légal et ce qui ne l’est pas, ce qui est licite et illicite, ce qui est désiré et non désiré. On peut parier sur l’apparition prochaine d’une jurisprudence, voire d’une réglementation autour de certaines pratiques déloyales autour du spamdexing. Car le problème, c’est que les sommes et les intérêts en jeu deviennent plus considérables avec chaque année, chaque mois, chaque jour qui passe. La "tricherie" paie encore, et il y’aura forcément un retour de bâton... Philippe YONNET [1] le courriel non sollicité, voir aussi l’encadré sur les origines du mot [2] la marque s’écrit désormais en majuscules, car elle n’aime pas trop être associée aux pourriels : c’est assez compréhensible [3] une étude américaine sur les "scraper sites", les sites qui ne font qu’afficher des flux en marque blanche, des catalogues xml, et/ou des liens sponsorisés, a donné un résultat intéressant sur leur caractère de "spam". Les moteurs de recherche (Google en tête) les considèrent comme du spam, et ont commencé à les éliminer systématiquement. Les utilisateurs interrogés, quand ils trouvent une de ces pages en tête des résultats, ne les considèrent pas comme du spam et considèrent ces pages comme utiles ! Cela s’interprète facilement en pensant que la page d’un "scraper site" crée souvent une porte d’entrée directe vers un élément précis d’un catalogue qu’il n’est pas toujours facile d’explorer avec les outils fournis par le site d’origine... [4] Voici quelques exemples parlants, relevés ça et là.
|
|
||
|