|
Site Web : Pnambique Directeur du Pôle Experts de la société @position http://www.aposition.com Articles de l'auteur : La détection du Link Spam : un challenge pour les moteurs [3/4] La détection du Link Spam : un challenge pour les moteurs [2/4] La détection du Link Spam : un challenge pour les moteurs [Bibl.] La détection du Link Spam : un challenge pour les moteurs [1/4] Cuill veut surpasser Google grâce à l’analyse de données sémantiques 2007 : l’année des moteurs furtifs L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.4] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.3] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.2] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.1] Joachim Kreibich (Seekport) : pour nous, un moteur de recherche de qualité doit tenir compte des particularismes linguistiques nationaux, voire régionaux Une tentative de définition du spamdexing Google Base dévoilé ! Les concepts de la POO La programmation objet : qu’est-ce que c’est ? à quoi ça sert ? Gregory Olivier "MSN Search cherche à établir un véritable dialogue avec les webmasters et les référenceurs" Direct Answers from Encarta MSN Search utilise-t’il l’analyse au niveau des blocs ? Spyware : les méthodes pour s’en débarasser Michael James, de la société Mirago "Nous misons sur nos partenaires pour développer notre visibilité" La sémantique appliquée et les outils de recherche [2/6] Linguistique statistique et sémantique appliquée : outil de pertinence pour les moteurs, de KM et de référencement ANALYSE THEMATIQUE (4/4) par le Pr E. Garcia ANALYSE THEMATIQUE (3/4) par le Pr E. Garcia Applications des outils sémantiques au référencement et aux moteurs de recherche Sémantique appliquée : Liens et références bibliographiques ANALYSE THEMATIQUE (2/4) par le Pr E. Garcia ANALYSE THEMATIQUE (1/4) par le Pr E. Garcia CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [3] Mon premier programme en PHP (3e Partie) CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2] CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [1] Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin) Quelques pistes pour comprendre le nouvel algorithme de Google FOOXX, le moteur futé venu d’Allemagne Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ? Mooter, un moteur de recherche innovant venu d’Australie Les techniques évoluées d’indexation dans les moteurs de recherche (2e partie) Visibilité et stratégies de développement d’audience sur le Web Les techniques évoluées d’indexation dans les moteurs de recherche L’algorithme HITS et le projet CLEVER (deuxième partie) L’algorithme HITS et le projet CLEVER La structure du web est en forme de "noeud papillon" Webfountain d’IBM Vers un moteur de recherche sensible au contexte (1ère partie) Vers un moteur de recherche sensible au contexte (2ème partie) Vers un moteur de recherche sensible au contexte (3ème partie) Droit d’auteur et site web Droit d’auteur et site web (2e Partie) Droit des producteurs de bases de données (législation française) Tester correctement variables et valeurs en php Mon premier programme en PHP (2e Partie) Les nouveautés de la version 5 de PHP Les origines du PHP Mon premier programme en PHP Pourquoi choisir le PHP pour réaliser des pages dynamiques ? |
La détection du Link Spam : un challenge pour les moteurs [3/4]
Lutte contre le spamdexingLa détection du Link Spam : un challenge pour les moteurs [3/4]Les méthodes statistiques et l’évalution humaine10 février 2008, par CaribooUne étude statistique de la distribution des liens entre les pages web montre une certaine régularité des pages normales (sur lesquelles les liens sont construits par des humains), les pages de spam ayant tendance à montrer une distribution beaucoup plus atypique. La comparaison des scores des pages de spam à des normes établies fait partie des techniques les plus efficaces pour identifier des pages candidates au statut de spam. On notera toutefois que ces techniques ont tendance aussi à créer des "faux positifs", qui doivent être éliminés par un évaluateur humain.
L’approche statistique dans la lutte contre le link spamIl n’y a pas un seul critère utilisable pour détecter une spam farm. Dans un article souvent cité [1], Fetterly Manasse et Najork avaient déjà identifié sept familles de critères de détection opérationnels : Les propriétés d’url La longueur des host-names, et en particulier le nombre de tirets, de chiffres, de points sont plus grands pour des pages de spam La résolution DNS le ratio moyen hôte/machine est très supérieur pour des pages de spam. [2] des pages s’éloigne de la distribution normale des pages du web sont probablement des pages de spam. C’est encore plus net avec le in-degree [3]
Le contenu des pages de la spam farm Pour des raisons de coût (efficacité obtenu / temps passé), les spammeurs ont tendance à créer des pages "supportrices" peu riches en contenu et peu variées. Il suffit de calculer la variance du nombre de termes des pages présentes sur un hôte donné pour observer des pages "déviantes" qui ne présentent peu ou pas de variance dans le nombre de mots. Cet indicateur dénote une probable page de spam. L’évolution du contenu La mesure du nombre moyen des changements intervenus sur les pages web d’un site donné est aussi semble-t’il une caractéristique de certaines spam farm (scripts générant du contenu à la volée). La recherche des contenus dupliqués Une observation de la distribution des tailles des documents en situation de "near duplicates" permet elle aussi d’identifier des pages de spam. Cette liste n’est pas exhaustive : l’approche statistique est particulièrement féconde pour détecter des structures artificielles dans une structure qui est (censée) avoir pour origine une activité humaine. Tout ce qui sort d’une norme établie peut constituer un indice de spam.. Le rôle de l’évaluation humaineDans la lutte contre le spam, quelle que soit la méthode utilisée, l’évaluation humaine est souvent indispensable pour éviter de sanctionner de "faux positifs". Avec le temps, le code des pages est de moins en moins rédigé par des humains, mais généré automatiquement par des programmes qui créent des pages à la volée. Certaines structures perçues comme "artificielles" peuvent se révéler correspondre à des cas parfaitement légitimes. Les blogs sont aussi un exemple flagrant de ce problème : les liens entre blogs amis ressemblent à une link farm, et les blogueurs jouent sans le savoir sur l’effet TKC. Le gendarme, c’est l’algo. Le juge, c’est l’évaluateur humain Il est évidemment impossible de difficile de surveiller en permanence les milliards de pages web qui constituent la Toile mondiale. Le principe (tel que décrit notamment il y’a quelques années par Wu et Davison) constitue à construire un système de détection s’appuyant sur de multiples indices. [4] A partir de ces différents scores, on peut soit créer une fonction de scoring à l’aide de pondérations établies expérimentalement, ou utiliser un "arbre de décisions", ou encore une méthode probabiliste (voire même un algorithme "apprenant" comme un algorithme bayésien). L’objectif étant d’identifier les pages "suspectes". On peut éviter les faux positifs en ne sanctionnant que les pages qui dépassent des seuils élevés, et dont la probabilité d’être du spam est proche de 100%. L’inconvénient, c’est que les SERPS (les pages de résultats) continuent forcément d’être polluées par des pages de spam. La solution pour diminuer la présence de spam dans les pages de résultats est d’utiliser l’évaluation humaine. L’internaute, évaluateur sans le savoir Comme le rappelait Peter Norvig dans une interview récente de la Technology Review, Google utilise plusieurs sources d’information pour vérifier que l’algorithme fournit des résultats de qualité :
EWOQ, le système d’évaluation de Google L’équipe de "search quality" de Google, dirigée par Matt Cutts, a beaucoup évolué ces derniers temps, ainsi que ses méthodes. Mais il est probable que les principes décrits ci-après soient encore à l’oeuvre. Le principe est l’utilisation simultanée de "petites mains" (quality raters) à qui on demande de "flagger" les pages présentant certaines caractéristiques bien visibles (comme du texte caché), et d’évaluer la pertinences de certaines pages apparaissant en tête des résultats. Ces notes de qualité alimentent un système de scoring complexe baptisé EWOQ permettant d’avoir un feed back sur le fonctionnement des algorithmes (par rapport à la présence de spam mais aussi en terme de pertinence). Il semble que ces petites mains ne puissent pas pénaliser seule un site. Mais leurs remarques peuvent conduire, combinée à d’autres critères, soit à un déclassement automatique (note intégrée dans l’algorithme) soit au déclenchement d’une alerte qui amènera une évaluation par une personne expérimentée. Je précise bien les choses ici : chez Google, on adore les algorithmes, et trouver des solutions générales. Il est donc probable que les pénalités manuelles représentent un tout petit nombre de cas. Philippe YONNET Directeur du Pôle Experts - Aposition Prochain article (et dernier) : la nouvelle donne du netlinking [1] Spam, Damn Spam, and Statistics [2] Ce ratio mesure le nombre d’hôtes présents dans les liens d’une page, divisé par le nombre d’IP obtenus après résolution du nom de domaine] La structure des liens Les sites dont le "out-degree"[[le "out-degree" correspond au nombre de liens sortants. La distribution suit une loi de Zipf [3] le nombre de liens entrants [4] Davison proposait d’utiliser des dizaines de critères |
|
||
|