|
Site Web : Pnambique Directeur du Pôle Experts de la société @position http://www.aposition.com Articles de l'auteur : La détection du Link Spam : un challenge pour les moteurs [3/4] La détection du Link Spam : un challenge pour les moteurs [2/4] La détection du Link Spam : un challenge pour les moteurs [Bibl.] La détection du Link Spam : un challenge pour les moteurs [1/4] Cuill veut surpasser Google grâce à l’analyse de données sémantiques 2007 : l’année des moteurs furtifs L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.4] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.3] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.2] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.1] Joachim Kreibich (Seekport) : pour nous, un moteur de recherche de qualité doit tenir compte des particularismes linguistiques nationaux, voire régionaux Une tentative de définition du spamdexing Google Base dévoilé ! Les concepts de la POO La programmation objet : qu’est-ce que c’est ? à quoi ça sert ? Gregory Olivier "MSN Search cherche à établir un véritable dialogue avec les webmasters et les référenceurs" Direct Answers from Encarta MSN Search utilise-t’il l’analyse au niveau des blocs ? Spyware : les méthodes pour s’en débarasser Michael James, de la société Mirago "Nous misons sur nos partenaires pour développer notre visibilité" La sémantique appliquée et les outils de recherche [2/6] Linguistique statistique et sémantique appliquée : outil de pertinence pour les moteurs, de KM et de référencement ANALYSE THEMATIQUE (4/4) par le Pr E. Garcia ANALYSE THEMATIQUE (3/4) par le Pr E. Garcia Applications des outils sémantiques au référencement et aux moteurs de recherche Sémantique appliquée : Liens et références bibliographiques ANALYSE THEMATIQUE (2/4) par le Pr E. Garcia ANALYSE THEMATIQUE (1/4) par le Pr E. Garcia CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [3] Mon premier programme en PHP (3e Partie) CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2] CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [1] Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin) Quelques pistes pour comprendre le nouvel algorithme de Google FOOXX, le moteur futé venu d’Allemagne Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ? Mooter, un moteur de recherche innovant venu d’Australie Les techniques évoluées d’indexation dans les moteurs de recherche (2e partie) Visibilité et stratégies de développement d’audience sur le Web Les techniques évoluées d’indexation dans les moteurs de recherche L’algorithme HITS et le projet CLEVER (deuxième partie) L’algorithme HITS et le projet CLEVER La structure du web est en forme de "noeud papillon" Webfountain d’IBM Vers un moteur de recherche sensible au contexte (1ère partie) Vers un moteur de recherche sensible au contexte (2ème partie) Vers un moteur de recherche sensible au contexte (3ème partie) Droit d’auteur et site web Droit d’auteur et site web (2e Partie) Droit des producteurs de bases de données (législation française) Tester correctement variables et valeurs en php Mon premier programme en PHP (2e Partie) Les nouveautés de la version 5 de PHP Les origines du PHP Mon premier programme en PHP Pourquoi choisir le PHP pour réaliser des pages dynamiques ? |
La détection du Link Spam : un challenge pour les moteurs [1/4]
Lutte contre le spamdexingLa détection du Link Spam : un challenge pour les moteurs [1/4]1ère partie : pourquoi la lutte contre le linkspam est une priorité pour les moteurs...8 février 2008, par CaribooA l’heure où Google est en pleine campagne de lutte contre les vendeurs de liens, et alors que tout le monde spécule sur le caractère manuel ou automatique de la détection des fautifs, il m’a paru intéressant de faire le point sur les méthodes automatiques qu’un moteur est susceptible d’employer. Je ne suis pas en mesure de vous dire si ces méthodes sont réellement employées par Google. Mais ces approches sont valides, elles ont été testées, et elles permettent de découvrir quels critères sont susceptibles d’être employés pour détecter une manipulation du pagerank. Les étudier est donc une source d’enseignements pour savoir non seulement ce qui pose problème aujourd’hui, mais aussi ce qui peut être détecté demain ...
Les enjeux du Link SpamL’objectif d’un moteur de recherche est de fournir des résultats de qualité en identifiant correctement toutes les pages pertinentes pour une requête donnée, et en présentant en tête du classement les pages les plus importantes. L’objectif de pertinence est atteint en général a minima en mesurant la similarité textuelle entre la requête et les documents renvoyés. L’importance de la page est un critère qui n’est pas dépendant de la requête, mais de la "popularité" de la page : cette popularité est déduite de la structure des liens environnant la page. Dans l’algorithme du Pagerank, elle dépend du nombre et de l’importance des liens entrants (mais il existe d’autres algorithmes comme HITS). Le link spam : un moyen pour viser la première position Les techniques de spam visant le contenu permettent d’assurer que la page figurera dans les premières pages de résultats sur une requête donnée. Les techniques de spam utilisant le pouvoir des liens, que nous continuerons d’appeler par l’expression anglaise "link spam", permettent elles d’atteindre le nirvana du spamdexer : la première page, voire la première position. comment ça marche et pourquoi ça marche La plupart des spammeurs jouent sur l’effet TKC pour doper le pagerank de leurs pages. L’effet TKC ("Tightly Knit Communities" qui pourrait se traduire par "communautés tricotées serrées") apparait spontanément entre des sites qui font partie de la même communauté : plusieurs webmasters font un lien sur chacune de leurs pages vers des pages des sites de leurs "amis", et réciproquement. Le résultat est un noyau de pages fortement interconnectées entre elles par des liens hypertextes. L’algorithme HITS était particulièrement sensible à l’effet TKC : cela le rendait particulièrement sensible au linkspam, et il a fallu attendre une évolution de cet algorithme implémentée dans le moteur TEOMA pour que ce problème soit à peu près réglé. Le "Pagerank" s’avère dans la pratique plus robuste que HITS face à l’effet TKC, mais peut être fortement "influencé" par un tel noyau de pages fortement reliées entre elles. Les deux exemples ci-dessous montrent le gain théorique de pagerank obtenu avec quelques structures de liens. Ces exemples ont été créés avec l’outil Pagerank Decoder, les valeurs obtenues sont calculées avec l’algorithme du pagerank tel que décrit dans l’article original de Page et Brin (le calcul est sans doute différent aujourd’hui). la page d’accueil du site cible (les pages à droite) reçoivent quelques liens provenant de sites dont les pages d’accueil ont un PR de 4 ou 5. Mais le PR obtenu n’est que de 2.9 avec un environnement beaucoup plus interconnecté, l’effet TKC commence à se faire sentir : le PR monte à 5.6 ! Les méthodes de Link SpamPour un link spammer, il n’y a que quatre sortes de pages :
Augmenter le nombre et l’importance des pages contrôlées L’optimisation des pages contrôlées existantes est tout un art : elle consiste à créer une structure interne permettant d’optimiser la répartition du pagerank. Mais la plupart des spamdexers mettent le plus d’énergie possible à créer un grand nombre de pages, voire un grand nombre de sites, pour augmenter le pagerank intrinsèque de leur "spam farm" (leur "ferme de spam"). Cela peut aussi passer par l’achat de domaines expirés. Agir sur les pages manipulables Ces pages manipulables sont des pages d’autres sites, mais ouvertes à une édition par les internautes : pages de wiki, livres d’or, annuaire ouverts aux inscriptions, commentaires de blogs, posts dans des forums mal modérés, tags de réseaux sociaux etc... Les technniques de spam utilisées peuvent être manuelles ou automatiques. Créer des liens sur des pages "influençables" L’objectif de cette méthode est d’obtenir des liens volontairement créés par d’autres sites. Le lien peut être acheté, ou échangé (dans le cadre d’un programme d’échange de liens). Il est également possible de susciter la création de liens par des techniques de "linkbaiting" ou la mise en lignes de "pots de miel" (honeypot) : créer un contenu vers lequel de nombreux webmasters vont juger utile, amusant, intéressant de faire un lien. Il faut noter que certains spamdexers peuvent être amenés à utiliser des moyens plus "légitimes" encore pour influencer des webmasters : campagnes de presse, de relations publiques, de communication, de marketing... Certains utilisent aussi leur influence sur une communauté pour faire créer des liens vers leurs contenus.
Deux définitions : link farm et spam farm Les Link spammers utilisent deux sortes d’outils qu’il convient de bien différencier : les link farms et les spam farms. Les link farms Les fermes de liens sont un système d’échanges de bons procédés entre webmasters, l’objectif étant de jouer à fond l’effet TKC. Si dix webmasters décident de créer une ferme entre eux, ils créeront neuf liens vers les neuf autres sites, manuellement ou le plus souvent à l’aide d’un outil automatisé qui place un bloc de liens sur toutes les pages du site d’un membre de la "link farm". Les "fermes de liens" sont un vieil outil de spam très efficace mais très dangereux à utiliser : les fermes de liens sont facilement détectables en raison de la régularité de leur structure, (Google les détecte depuis des années) et s’inscrire dans ce type de "ferme" conduit le plus souvent à un "blacklistage" en règle. Les spam farms Le terme "ferme de spam" est beaucoup plus générique : il englobe toutes les pages, voire tous les sites, que le link spammeur contrôle ou manipule et qui lui servent à "booster" le pagerank de son site. Dans ces pages on peut trouver :
Dans ce domaine, l’imagination des spammeurs est sans limite... Les principes de la lutte contre le Link SpamOn peut identifier trois catégories de contre mesures qu’un moteur peut mettre en oeuvre pour lutter contre la manipulation d’algorithmes de type PageRank :
Compte tenu du nombre de sites, d’acteurs, de pages, de requêtes à surveiller, le recours à une méthode automatique pour détecter les cas suspects est obligatoire. Par contre, le caractère "spammy" ou non d’une page est une notion relative et subjective, qui nécessite l’intervention d’opérateurs humains à différents niveaux :
Philippe YONNET Directeur du Pôle Experts - Aposition Deuxième partie à venir dans quelques jours : les méthodes automatiques de détection à base de "ranks"
|
|
||
|