Archives de catégorie : Algorithmes, Moteurs et techniques d’indexation

Chaque moteur a ses propres recettes pour présenter les résultats de requêtes en fonction de la pertinence des pages.
Cette rubrique traite des algorithmes utilisés à cette fin, des techniques d’indexation et des technologies de recherche en général.

Les progrès de la reconnaissance des entités nommées dans les moteurs de recherche

De nombreux moteurs de recherche majeurs basent aujourd’hui une partie de leurs algorithmes sur la détection des entités nommés : nom de personne, d’entreprise, de lieu, etc. Mais peut-on facilement définir ce qu’est une entité nommée et comment les moteurs … Continuer la lecture

Publié dans Algorithmes, Moteurs et techniques d'indexation | Commentaires fermés sur Les progrès de la reconnaissance des entités nommées dans les moteurs de recherche

La détection du Link Spam : un challenge pour les moteurs [3/4]

Une étude statistique de la distribution des liens entre les pages web montre une certaine régularité des pages normales (sur lesquelles les liens sont construits par des humains), les pages de spam ayant tendance à montrer une distribution beaucoup plus … Continuer la lecture

Publié dans Algorithmes, Moteurs et techniques d'indexation | Commentaires fermés sur La détection du Link Spam : un challenge pour les moteurs [3/4]

La détection du Link Spam : un challenge pour les moteurs [2/4]

Le problème que pose la mise en oeuvre de tout algorithme dès lors qu’il s’agit de faire des calculs sur le World Wide Web, c’est la taille de la collection : des dizaines de milliards de pages, reliées par des … Continuer la lecture

Publié dans Algorithmes, Moteurs et techniques d'indexation | Commentaires fermés sur La détection du Link Spam : un challenge pour les moteurs [2/4]

La détection du Link Spam : un challenge pour les moteurs [Bibl.]

Brevets Brevet de Yahoo (Trustrank) appft1.uspto.gov/netacgi/nph-Parser Un brevet de Microsoft (astuce pour rendre le pagerank robuste au Link Spam) appft1.uspto.gov/netacgi/nph-Parser Un récent brevet de Google patft.uspto.gov/netacgi/nph-Parser BIBLIOGRAPHIE Link-Based Characterization and Detection of Web Spam Luca Beccheti, Carlos Castillo, Debora Donato, … Continuer la lecture

Publié dans Algorithmes, Moteurs et techniques d'indexation | Commentaires fermés sur La détection du Link Spam : un challenge pour les moteurs [Bibl.]

La détection du Link Spam : un challenge pour les moteurs [1/4]

A l’heure où Google est en pleine campagne de lutte contre les vendeurs de liens, et alors que tout le monde spécule sur le caractère manuel ou automatique de la détection des fautifs, il m’a paru intéressant de faire le … Continuer la lecture

Publié dans Algorithmes, Moteurs et techniques d'indexation, Sémantique appliquée | Commentaires fermés sur La détection du Link Spam : un challenge pour les moteurs [1/4]

Cuill veut surpasser Google grâce à l’analyse de données sémantiques

Depuis quelques semaines, un buzz impressionnant se développe autour du projet Cuill [1], un moteur de recherche encore au stade « furtif ». [2]. Mais nous sommes loin du battage organisé autour de Megaglobe ou de Powerset : si l’on parle autant … Continuer la lecture

Publié dans Algorithmes, Moteurs et techniques d'indexation | Commentaires fermés sur Cuill veut surpasser Google grâce à l’analyse de données sémantiques

2007 : l’année des moteurs furtifs

Surveillez vos logs d’un peu plus près… Depuis quelques mois, des bots inconnus apparaissent (parfois cachés sous des user agents connus) et crawlent votre site web. D’où viennent-ils ? Qui sont-ils ? Certains des moteurs qui sont derrière ces robots … Continuer la lecture

Publié dans Algorithmes, Moteurs et techniques d'indexation | Commentaires fermés sur 2007 : l’année des moteurs furtifs

Joachim Kreibich (Seekport) : pour nous, un moteur de recherche de qualité doit tenir compte des particularismes linguistiques nationaux, voire régionaux

Joachim Kreibich gérant de Seekport France Joachim Kreibich est le gérant de Seekport Internet Technologies France SAS, et codirige Seekport Internet Technologies GmbH, la société mère allemande. Titulaire d’un MBA obtenu à l’université de Cologne, Joachim Kreibich commence sa carrière … Continuer la lecture

Publié dans Algorithmes, Moteurs et techniques d'indexation, Sémantique appliquée | Commentaires fermés sur Joachim Kreibich (Seekport) : pour nous, un moteur de recherche de qualité doit tenir compte des particularismes linguistiques nationaux, voire régionaux

Google Base dévoilé !

L’existence du sous-domaine base.google.com a été révélée sur le blog ruscoe.net fin octobre. Aussitôt, un membre du forum Searchenginewatch a consulté une source chez Google, qui lui aurait déclaré :« Google Base est le dernier projet en date chez Google pour … Continuer la lecture

Publié dans Algorithmes, Moteurs et techniques d'indexation, Sémantique appliquée | Commentaires fermés sur Google Base dévoilé !

Gregory Olivier « MSN Search cherche à établir un véritable dialogue avec les webmasters et les référenceurs »

Gregory Olivier – Communication Marketing Manager – MSN France et Sabrina Buquoy – Search Product Manager – MSN France, ont bien voulu répondre aux questions de Webmaster Hub sur MSN Search. Interview réalisée le 15 mars 2005 MSN est partenaire … Continuer la lecture

Publié dans Algorithmes, Moteurs et techniques d'indexation, Sémantique appliquée | Commentaires fermés sur Gregory Olivier « MSN Search cherche à établir un véritable dialogue avec les webmasters et les référenceurs »