La détection du Link Spam : un challenge pour les moteurs [3/4]

Une étude statistique de la distribution des liens entre les pages web montre une certaine régularité des pages normales (sur lesquelles les liens sont construits par des humains), les pages de spam ayant tendance à montrer une distribution beaucoup plus atypique.

La comparaison des scores des pages de spam à des normes établies fait partie des techniques les plus efficaces pour identifier des pages candidates au statut de spam. On notera toutefois que ces techniques ont tendance aussi à créer des « faux positifs », qui doivent être éliminés par un évaluateur humain.

GIF - 8.2 ko
structure caractéristique d’une link farm
Illustration issue d’un article de Becchetti, Castillo, Donato et Leonardi

L’approche statistique dans la lutte contre le link spam

Il n’y a pas un seul critère utilisable pour détecter une spam farm. Dans un article souvent cité [1], Fetterly Manasse et Najork avaient déjà identifié sept familles de critères de détection opérationnels :

Les propriétés d’url

La longueur des host-names, et en particulier le nombre de tirets, de chiffres, de points sont plus grands pour des pages de spam

La résolution DNS

le ratio moyen hôte/machine est très supérieur pour des pages de spam. [2] des pages s’éloigne de la distribution normale des pages du web sont probablement des pages de spam.

C’est encore plus net avec le in-degree [3]

GIF - 16.6 ko
Les zones ovales bleues montrent les pages « déviantes » sur deux critères : in degree et variance du nombre de termes
Illustration issue de l’article « Spam, Damn Spam and Statistics

Le contenu des pages de la spam farm

Pour des raisons de coût (efficacité obtenu / temps passé), les spammeurs ont tendance à créer des pages « supportrices » peu riches en contenu et peu variées. Il suffit de calculer la variance du nombre de termes des pages présentes sur un hôte donné pour observer des pages « déviantes » qui ne présentent peu ou pas de variance dans le nombre de mots. Cet indicateur dénote une probable page de spam.

L’évolution du contenu

La mesure du nombre moyen des changements intervenus sur les pages web d’un site donné est aussi semble-t’il une caractéristique de certaines spam farm (scripts générant du contenu à la volée).

La recherche des contenus dupliqués

Une observation de la distribution des tailles des documents en situation de « near duplicates » permet elle aussi d’identifier des pages de spam.

Cette liste n’est pas exhaustive : l’approche statistique est particulièrement féconde pour détecter des structures artificielles dans une structure qui est (censée) avoir pour origine une activité humaine. Tout ce qui sort d’une norme établie peut constituer un indice de spam..

Le rôle de l’évaluation humaine

Dans la lutte contre le spam, quelle que soit la méthode utilisée, l’évaluation humaine est souvent indispensable pour éviter de sanctionner de « faux positifs ».

Avec le temps, le code des pages est de moins en moins rédigé par des humains, mais généré automatiquement par des programmes qui créent des pages à la volée. Certaines structures perçues comme « artificielles » peuvent se révéler correspondre à des cas parfaitement légitimes.

Les blogs sont aussi un exemple flagrant de ce problème : les liens entre blogs amis ressemblent à une link farm, et les blogueurs jouent sans le savoir sur l’effet TKC.

Le gendarme, c’est l’algo. Le juge, c’est l’évaluateur humain

Il est évidemment impossible de difficile de surveiller en permanence les milliards de pages web qui constituent la Toile mondiale. Le principe (tel que décrit notamment il y’a quelques années par Wu et Davison) constitue à construire un système de détection s’appuyant sur de multiples indices. [4]

A partir de ces différents scores, on peut soit créer une fonction de scoring à l’aide de pondérations établies expérimentalement, ou utiliser un « arbre de décisions », ou encore une méthode probabiliste (voire même un algorithme « apprenant » comme un algorithme bayésien). L’objectif étant d’identifier les pages « suspectes ».

On peut éviter les faux positifs en ne sanctionnant que les pages qui dépassent des seuils élevés, et dont la probabilité d’être du spam est proche de 100%. L’inconvénient, c’est que les SERPS (les pages de résultats) continuent forcément d’être polluées par des pages de spam.

La solution pour diminuer la présence de spam dans les pages de résultats est d’utiliser l’évaluation humaine.

L’internaute, évaluateur sans le savoir

Comme le rappelait Peter Norvig dans une interview récente de la Technology Review, Google utilise plusieurs sources d’information pour vérifier que l’algorithme fournit des résultats de qualité :
- les clics de l’internaute peuvent être traqués : si certains résultats ne sont jamais cliqués, ou si les pages en premières positions ne sont pas cliquées, au contraire de la page en position quatre ou cing, c’est qu’il y’a un problème (défaut de l’algorithme, présence de pages de spam, ou les deux).
- des tests de comportement peuvent être organisés en laboratoire, ou chez un panel d’utilisateurs
- enfin, Google sélectionne des requêtes à faire tester par des évaluateurs embauchés pour l’occasion

EWOQ, le système d’évaluation de Google

L’équipe de « search quality » de Google, dirigée par Matt Cutts, a beaucoup évolué ces derniers temps, ainsi que ses méthodes. Mais il est probable que les principes décrits ci-après soient encore à l’oeuvre.

Le principe est l’utilisation simultanée de « petites mains » (quality raters) à qui on demande de « flagger » les pages présentant certaines caractéristiques bien visibles (comme du texte caché), et d’évaluer la pertinences de certaines pages apparaissant en tête des résultats. Ces notes de qualité alimentent un système de scoring complexe baptisé EWOQ permettant d’avoir un feed back sur le fonctionnement des algorithmes (par rapport à la présence de spam mais aussi en terme de pertinence).

Il semble que ces petites mains ne puissent pas pénaliser seule un site. Mais leurs remarques peuvent conduire, combinée à d’autres critères, soit à un déclassement automatique (note intégrée dans l’algorithme) soit au déclenchement d’une alerte qui amènera une évaluation par une personne expérimentée.

Je précise bien les choses ici : chez Google, on adore les algorithmes, et trouver des solutions générales. Il est donc probable que les pénalités manuelles représentent un tout petit nombre de cas.

Philippe YONNET
Directeur du Pôle Experts – Aposition

Prochain article (et dernier) : la nouvelle donne du netlinking


[1] Spam, Damn Spam, and Statistics

[2] Ce ratio mesure le nombre d’hôtes présents dans les liens d’une page, divisé par le nombre d’IP obtenus après résolution du nom de domaine]

La structure des liens

Les sites dont le « out-degree »[[le « out-degree » correspond au nombre de liens sortants. La distribution suit une loi de Zipf

[3] le nombre de liens entrants

[4] Davison proposait d’utiliser des dizaines de critères