La détection du Link Spam : un challenge pour les moteurs [1/4]

A l’heure où Google est en pleine campagne de lutte contre les vendeurs de liens, et alors que tout le monde spécule sur le caractère manuel ou automatique de la détection des fautifs, il m’a paru intéressant de faire le point sur les méthodes automatiques qu’un moteur est susceptible d’employer.

Je ne suis pas en mesure de vous dire si ces méthodes sont réellement employées par Google. Mais ces approches sont valides, elles ont été testées, et elles permettent de découvrir quels critères sont susceptibles d’être employés pour détecter une manipulation du pagerank.

Les étudier est donc une source d’enseignements pour savoir non seulement ce qui pose problème aujourd’hui, mais aussi ce qui peut être détecté demain …

La détection du link spam : un challenge pour les moteurs
PLAN DE L’ARTICLE
Première partie : définitions, enjeux et principes
Deuxième partie : les méthodes de détection automatique à base de ranks
Troisième partie : les méthodes statistiques / le rôle de l’évaluation humaine
Quatrième partie : la nouvelle donne du netlinking
Bibliographie et liens utiles

Les enjeux du Link Spam

L’objectif d’un moteur de recherche est de fournir des résultats de qualité en identifiant correctement toutes les pages pertinentes pour une requête donnée, et en présentant en tête du classement les pages les plus importantes. L’objectif de pertinence est atteint en général a minima en mesurant la similarité textuelle entre la requête et les documents renvoyés. L’importance de la page est un critère qui n’est pas dépendant de la requête, mais de la « popularité » de la page : cette popularité est déduite de la structure des liens environnant la page. Dans l’algorithme du Pagerank, elle dépend du nombre et de l’importance des liens entrants (mais il existe d’autres algorithmes comme HITS).

Le link spam : un moyen pour viser la première position

Les techniques de spam visant le contenu permettent d’assurer que la page figurera dans les premières pages de résultats sur une requête donnée. Les techniques de spam utilisant le pouvoir des liens, que nous continuerons d’appeler par l’expression anglaise « link spam », permettent elles d’atteindre le nirvana du spamdexer : la première page, voire la première position.

comment ça marche et pourquoi ça marche

La plupart des spammeurs jouent sur l’effet TKC pour doper le pagerank de leurs pages. L’effet TKC (« Tightly Knit Communities » qui pourrait se traduire par « communautés tricotées serrées ») apparait spontanément entre des sites qui font partie de la même communauté : plusieurs webmasters font un lien sur chacune de leurs pages vers des pages des sites de leurs « amis », et réciproquement. Le résultat est un noyau de pages fortement interconnectées entre elles par des liens hypertextes.

L’algorithme HITS était particulièrement sensible à l’effet TKC : cela le rendait particulièrement sensible au linkspam, et il a fallu attendre une évolution de cet algorithme implémentée dans le moteur TEOMA pour que ce problème soit à peu près réglé.

Le « Pagerank » s’avère dans la pratique plus robuste que HITS face à l’effet TKC, mais peut être fortement « influencé » par un tel noyau de pages fortement reliées entre elles.

Les deux exemples ci-dessous montrent le gain théorique de pagerank obtenu avec quelques structures de liens. Ces exemples ont été créés avec l’outil Pagerank Decoder, les valeurs obtenues sont calculées avec l’algorithme du pagerank tel que décrit dans l’article original de Page et Brin (le calcul est sans doute différent aujourd’hui).

GIF - 14.2 ko
Pr obtenu dans un contexte peu interconnecté

la page d’accueil du site cible (les pages à droite) reçoivent quelques liens provenant de sites dont les pages d’accueil ont un PR de 4 ou 5. Mais le PR obtenu n’est que de 2.9

GIF - 24.2 ko
pr obtenu avec effet tkc

avec un environnement beaucoup plus interconnecté, l’effet TKC commence à se faire sentir : le PR monte à 5.6 !

Les méthodes de Link Spam

Pour un link spammer, il n’y a que quatre sortes de pages :
- les pages qu’il gère (« pages contrôlées »)
- les pages qu’il ne gère pas, mais qu’il peut modifier (« pages manipulables »)
- les pages qu’il ne peut pas modifier, mais dont il peut influencer les auteurs (« pages influençables »)
- et enfin les pages qu’il ne peut pas manipuler ou faire manipuler (« pages hors de portée ») sur lequel il n’a pas prise, mais qui peuvent avoir une influence sur son pagerank

Augmenter le nombre et l’importance des pages contrôlées

L’optimisation des pages contrôlées existantes est tout un art : elle consiste à créer une structure interne permettant d’optimiser la répartition du pagerank. Mais la plupart des spamdexers mettent le plus d’énergie possible à créer un grand nombre de pages, voire un grand nombre de sites, pour augmenter le pagerank intrinsèque de leur « spam farm » (leur « ferme de spam »). Cela peut aussi passer par l’achat de domaines expirés.

Agir sur les pages manipulables

Ces pages manipulables sont des pages d’autres sites, mais ouvertes à une édition par les internautes : pages de wiki, livres d’or, annuaire ouverts aux inscriptions, commentaires de blogs, posts dans des forums mal modérés, tags de réseaux sociaux etc… Les technniques de spam utilisées peuvent être manuelles ou automatiques.

Créer des liens sur des pages « influençables »

L’objectif de cette méthode est d’obtenir des liens volontairement créés par d’autres sites. Le lien peut être acheté, ou échangé (dans le cadre d’un programme d’échange de liens). Il est également possible de susciter la création de liens par des techniques de « linkbaiting » ou la mise en lignes de « pots de miel » (honeypot) : créer un contenu vers lequel de nombreux webmasters vont juger utile, amusant, intéressant de faire un lien. Il faut noter que certains spamdexers peuvent être amenés à utiliser des moyens plus « légitimes » encore pour influencer des webmasters : campagnes de presse, de relations publiques, de communication, de marketing… Certains utilisent aussi leur influence sur une communauté pour faire créer des liens vers leurs contenus.

GIF - 8.9 ko

Deux définitions : link farm et spam farm

Les Link spammers utilisent deux sortes d’outils qu’il convient de bien différencier : les link farms et les spam farms.

Les link farms

Les fermes de liens sont un système d’échanges de bons procédés entre webmasters, l’objectif étant de jouer à fond l’effet TKC. Si dix webmasters décident de créer une ferme entre eux, ils créeront neuf liens vers les neuf autres sites, manuellement ou le plus souvent à l’aide d’un outil automatisé qui place un bloc de liens sur toutes les pages du site d’un membre de la « link farm ».

Les « fermes de liens » sont un vieil outil de spam très efficace mais très dangereux à utiliser : les fermes de liens sont facilement détectables en raison de la régularité de leur structure, (Google les détecte depuis des années) et s’inscrire dans ce type de « ferme » conduit le plus souvent à un « blacklistage » en règle.

Les spam farms

Le terme « ferme de spam » est beaucoup plus générique : il englobe toutes les pages, voire tous les sites, que le link spammeur contrôle ou manipule et qui lui servent à « booster » le pagerank de son site. Dans ces pages on peut trouver :
- des galaxies de sites « cousins » construits pour doper un site principal
- des blogs (splogs)
- des pages de profil (type myspace, linked in)
- du spam sur les espaces communautaires (posts dans les forums, commentaires sur les blogs, textes sur les wikis, les sites éditoriaux participatifs, les livres d’or…)
- les inscriptions dans les annuaires
- du spam sur les sites sociaux (digg likes, médias sociaux…)

Dans ce domaine, l’imagination des spammeurs est sans limite…

Les principes de la lutte contre le Link Spam

On peut identifier trois catégories de contre mesures qu’un moteur peut mettre en oeuvre pour lutter contre la manipulation d’algorithmes de type PageRank :
1. Identifier a priori les cas de spam : trouver les pages ou les liens qui posent problème et ne pas suivre ces liens ou indexer les pages lors du crawl
2. Empêcher ou gêner le spam : en rendant les techniques impossibles à mettre en oeuvre. La campagne de comm de Matt Cutts contre la vente de liens relève de cette catégorie, même si en général, les mesures sont plutôt techniques.
3. Déclasser les pages « spammy » a posteriori : cela passe par la mise au point d’algorithmes de classement des pages résilients au Link Spam.

Compte tenu du nombre de sites, d’acteurs, de pages, de requêtes à surveiller, le recours à une méthode automatique pour détecter les cas suspects est obligatoire.

Par contre, le caractère « spammy » ou non d’une page est une notion relative et subjective, qui nécessite l’intervention d’opérateurs humains à différents niveaux :
- entrainer les algorithmes, en définissant des jeux de bonnes pages (« ham »), et de mauvaises pages (« spam »)
- évaluer les algorithmes, en examinant les résultats obtenus
- décider de l’action à mener lorsque les scores obtenus rendent une page « suspecte », mais qu’elle ne peut pas être caractérisée à coup sûr comme du spam

Philippe YONNET

Directeur du Pôle Experts – Aposition

Deuxième partie à venir dans quelques jours : les méthodes automatiques de détection à base de « ranks »