|
Site Web : Pnambique Directeur du Pôle Experts de la société @position http://www.aposition.com Articles de l'auteur : La détection du Link Spam : un challenge pour les moteurs [3/4] La détection du Link Spam : un challenge pour les moteurs [2/4] La détection du Link Spam : un challenge pour les moteurs [Bibl.] La détection du Link Spam : un challenge pour les moteurs [1/4] Cuill veut surpasser Google grâce à l’analyse de données sémantiques 2007 : l’année des moteurs furtifs L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.4] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.3] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.2] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.1] Joachim Kreibich (Seekport) : pour nous, un moteur de recherche de qualité doit tenir compte des particularismes linguistiques nationaux, voire régionaux Une tentative de définition du spamdexing Google Base dévoilé ! Les concepts de la POO La programmation objet : qu’est-ce que c’est ? à quoi ça sert ? Gregory Olivier "MSN Search cherche à établir un véritable dialogue avec les webmasters et les référenceurs" Direct Answers from Encarta MSN Search utilise-t’il l’analyse au niveau des blocs ? Spyware : les méthodes pour s’en débarasser Michael James, de la société Mirago "Nous misons sur nos partenaires pour développer notre visibilité" La sémantique appliquée et les outils de recherche [2/6] Linguistique statistique et sémantique appliquée : outil de pertinence pour les moteurs, de KM et de référencement ANALYSE THEMATIQUE (4/4) par le Pr E. Garcia ANALYSE THEMATIQUE (3/4) par le Pr E. Garcia Applications des outils sémantiques au référencement et aux moteurs de recherche Sémantique appliquée : Liens et références bibliographiques ANALYSE THEMATIQUE (2/4) par le Pr E. Garcia ANALYSE THEMATIQUE (1/4) par le Pr E. Garcia CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [3] Mon premier programme en PHP (3e Partie) CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2] CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [1] Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin) Quelques pistes pour comprendre le nouvel algorithme de Google FOOXX, le moteur futé venu d’Allemagne Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ? Mooter, un moteur de recherche innovant venu d’Australie Les techniques évoluées d’indexation dans les moteurs de recherche (2e partie) Visibilité et stratégies de développement d’audience sur le Web Les techniques évoluées d’indexation dans les moteurs de recherche L’algorithme HITS et le projet CLEVER (deuxième partie) L’algorithme HITS et le projet CLEVER La structure du web est en forme de "noeud papillon" Webfountain d’IBM Vers un moteur de recherche sensible au contexte (1ère partie) Vers un moteur de recherche sensible au contexte (2ème partie) Vers un moteur de recherche sensible au contexte (3ème partie) Droit d’auteur et site web Droit d’auteur et site web (2e Partie) Droit des producteurs de bases de données (législation française) Tester correctement variables et valeurs en php Mon premier programme en PHP (2e Partie) Les nouveautés de la version 5 de PHP Les origines du PHP Mon premier programme en PHP Pourquoi choisir le PHP pour réaliser des pages dynamiques ? |
Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ?
Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ?Les pistes explorées chez Microsoft pour réaliser un nouveau type de moteur12 juin 2004, par CaribooA quoi ressemblera le nouveau moteur de Microsoft ? Pourquoi la firme de Bill Gates met elle tant de temps à le lancer ? Quel algorithme sera utilisé : un dérivé des solutions existantes, ou quelque chose de fondamentalement nouveau ? Beaucoup de gens aimeraient connaître les réponses à ces questions. Et parmi eux, les dirigeants de Google et Yahoo. Microsoft maintient un secret total sur le sujet, mais comme d’habitude, il est toujours possible de se faire une idée sur les "pistes" explorées par une entreprise de haute technologie en étudiant ses projets de recherche. Et là, ce que l’on trouve tourne systématiquement autour de la compréhension du langage naturel, et de l’intégration des outils de recherche dans les applications et le système d’exploitation. Parmi ces projets, trois attirent l’attention : Brilliant, moteur de recherche expérimental du laboratoire de Microsoft en Chine, askMSR de Brill, et Stuff I’ve Seen de Dunais. Mais il faut aussi se demander quelle place ces outils auront dans Longhorn, le futur OS révolutionnaire de Microsoft. Brilliant, un moteur de recherche qui comprend ce qu’on lui demandeJusqu’ici, les moteurs de recherche ont connu deux évolutions parallèles. D’un côté, nous avons vu naître des moteurs s’appuyant sur la recherche de mots clés. Ce type de moteurs est le plus répandu : Google, Yahoo, MSN fonctionnent sur ce principe. Ensuite, il y’a les moteurs à la "AskJeeves" : moins connus, moins populaires, ils fonctionnent sur le principe d’une indexation manuelle des questions et de leurs réponses... Ce dernier type de moteur permet de donner des résultats plus pertinents, mais il demande un nombre considérable d’heures de travail pour aboutir à une base de questions/réponses suffisante. Les chercheurs à la base du projet Brilliant [1] ont réussi à élaboré le prototype d’un moteur d’un genre nouveau, qui est capable de comprendre ce qu’on lui demande, et capable d’élaborer automatiquement la liste des bonnes réponses à donner. Le projet part d’un postulat vérifié par l’expérience : un faible nombre de concepts permet de couvrir la plupart des requêtes des internautes. [2]. C’est ce qui permet d’automatiser le processus d’indexation des FAQ. Le moteur Brilliant s’appuie tout d’abord sur un analyseur de langage naturel. Les questions posées au moteur peuvent donc être posées en langage naturel, et non en tapant des mots clés. L’analyseur utilise les dernières avancées dans le domaine (Microsoft est très en pointe sur le sujet), et notamment les méthodes d’"analyse robuste" [3], qui permettent de mieux comprendre les questions mal exprimées ou remplies de fautes de frappe, de grammaire, ou d’orthographe. En fait, Brilliant reprend la technologie Leap, qui est utilisée dans un nouveau système de reconnaissance vocale récemment lancé commercialement par Microsoft.
Si Leap comprend la phrase qui exprime la requête, il renvoie un "arbre" sémantique, qui servira à l’analyse ultérieure. Sinon, les mots clés sont renvoyés sans correspondance avec une classification sémantique (une ontologie). Ensuite, des méthodes probabilistes permettent d’affiner la qualité de la réponse renvoyer.
La phase suivante constitue à créer une base de FAQ. Une liste de concepts est stockée avec les réponses associées. Avec les concepts, sont également stockés tous les synonymes qui renvoient vers ces mêmes concepts. La liste des FAQs (réponses à des questions type) est ensuite constituée. Chaque FAQ est attachée à un ou plusieurs concepts, avec une "note" qui mesure sa "pertinence" selon le concept associé. L’ensemble permet donc de constituer un système de FAQ à la AskJeeves, mais de manière presque entièrement automatique... Un outil qui doterait MSN de fonctionnalités tout à fait intéressantes, permettant de fournir à un internaute des pages vraiment pertinentes, dès lors que la question posée est précise et compréhensible. Brilliant n’est pas un projet présenté comme complétement opérationnel. Pour cela, il semble qu’il manque les outils permettant d’indexer et sélectionner les FAQ. Mais ce n’est sans doute pas la partie la plus difficile, et peut-être ce travail a déjà été achevé au moment où nous écrivons cet article. Une chose est certaine en tout cas : l’idée de fournir des outils de recherche capables de donner des réponses claires à un internaute, et pas uniquement une liste de pages, est un vrai axe de recherche chez Microsoft. Un autre projet, AskMSR, constitue une autre forme de réponse, plus originale, à ce défi. AskMSR, l’application qui cherche des réponses sur la Toile, au lieu de documentsEntrez la question suivante dans AskMSR :
et AskMSR répond
Bon, vous n’êtes peut être pas impressionnés. Sauf que AskMSR ne tire pas ses informations d’une verson évoluée de l’Encyclopaedia Universalis (ou d’Encarta, nous sommes chez Microsoft), ni d’une base de FAQ, mais de la Toile Mondiale... Comment cela fonctionne-t’il ? Tout d’abord, la requête (une question) est reformulée en une expression qui est susceptible de se trouver à proximité de la réponse. Par exemple "Qui a inventé le téléphone" est reformulé en "Le téléphone a été inventé par". C’est cette deuxième expression qui est réellement cherchée sur internet... Les réponses des moteurs de recherche sont ensuite analysées. Les moteurs utiles pour cette phase sont ceux qui fournissent, comme Google, un "extrait" de la page qui entoure l’expression trouvée. Ces résumés sont ensuite utilisés pour extraire les réponses potentielles sous forme de monogrammes, bigrammes, trigrammes (un mot, deux mots, trois mots) Une analyse est ensuite faite sur les réponses les plus probables. Les N-Grammes sont retraités par des filtres (conçus par des experts, qui ont défini sept types différents de questions nécessitant des traitements différents au niveau des réponses), et éventuellement assemblés (si les réponses les plus probables sont les trigrammes A B C et B C D, la réponse formulée pourra être A B C D) L’une des possibilités intéressantes de AskMSR, c’est qu’il sait aussi répondre "Je ne sais pas"... Détecter une mauvaise réponse potentielle est en effet un élément essentiel pour ce genre d’applications. Ceci a été rendu possible par l’ajout d’un système d’évaluation des réponses à partir d’un arbre de décisions et d’un système capable d’être "entrainé" par un opérateur humain à reconnaître les mauvaises réponses... Stuff I’ve Seen, l’outil qui fonctionne comme votre mémoire, mais qui n’oublie rienStuff I’ve Seen est un outil développé par l’équipe de Susan Dumais au sein de Microsoft Research. SIS a été imaginé pour aider un utilisateur de PC à retrouver facilement une information, non pas n’importe où mais dans les pages webs, fichiers, mails, documents de tous types qu’il a consultés auparavant. Les études du comportement des internautes ont permis en effet de se rendre compte qu’en règle générale, on ne cherche que des informations dont on connait l’existence, dans des endroits dont on connait l’existence. Il est particulièrement fréquent d’avoir à rédiger des rapports, qui nécessitent de retrouver des données dans ses mails ou dans des fichiers que l’on a déjà consultés, ou dans des sites webs que l’on a déjà parcourus. Ce type de travail, pour être efficace, demande d’être particulièrement organisé, et d’avoir une bonne mémoire. Mais même pour une personne organisée, cela demande du temps, car il faut aller piocher les informations en effectuant des recherches successives dans des outils propriétaires différents (la fonction de recherche d’un client mail, un moteur de recherche pour le web, la fonction "recherche" de l’OS du PC pour les fichiers, et la fonction "rechercher" d’une application si le fichier ouvert contient beaucoup d’informations.
Stuff I’ve Seen a d’abord été doté de la capacité d’indexer n’importe quel type de documents : page web, mail, fichiers de toutes sortes. Et au fur et à mesure que vous utilisez votre PC, Stuff I’ve Seen enregistre ce que vous consultez. Ce formidable index permet donc ensuite de pouvoir retrouver facilement les informations dont vous avez besoin. Qui plus est, comme le contexte de la consultation a été enregistré, SIS se sert de ces informations pour augmenter la pertinence de ses réponses. SIS est encore un prototype, mais il fonctionne... L’indexation permanente ralentit la machine, et génère une quantité énorme de données, mais ce ne sont que des problèmes mineurs, que les équipes de Microsoft s’efforcent de résoudre. L’équipe de Susan Dumais développe maintenant une application dérivée plus expérimentale, baptisée "Implicit Query". Quelle technologie dans Longhorn ?Beaucoup d’observateurs se sont étonnés de voir Microsoft tarder à se joindre à la bataille entre moteurs de recherche. Le lancement du moteur propriétaire sur MSN a été annoncé dès 2003, puis repoussé sine die. La date de juillet 2004 a été ensuite avancée, mais cette information a été démentie (il n’y aura qu’un changement d’interface). Bizarre... bizarre... Pourquoi Microsoft, avec ses moyens, semble incapable de lancer un moteur concurrent à Yahoo ou Google ? Un aveu d’impuissance, ou un manque de compétences ? Microsoft a répété régulièrement son intérêt pour les activités liées aux moteurs de recherche. Alors, que se passe-t’il ?
En fait, Microsoft juge cette approche prioritaire. Intégrer les fonctions de recherche profondément dans ses applications et son système d’exploitation est un objectif que Bill Gates a assigné depuis des années à ses équipes [4]. Et Longhorn, le futur système d’exploitation dont le lancement est prévu pour début 2006, a été conçu pour faciliter cette approche. Au coeur de Longhorn, se trouve WinFS, un système nouveau de stockage de fichiers. WinFS utilise NTFS, qu’il ne remplacera pas. WinFS permet de stocker automatiquement des informations complémentaires (grâce à des méta-données XML) sur le contenu de chaque fichier, ce qui permet d’effectuer des recherches sur des données hétérogènes. Cette technologie fait évidemment des merveilles lorsqu’elle est combinée aves des outils comme SIS, ou Implicit Query. Et il y’a de fortes chances qu’on les retrouve effectivement dans la version définitive de Longhorn ... Comme AskMSR. Et on annonce aussi une version Longhorn de ... MSN. A quoi ressemblera-t’elle ? Mystère... En tout cas, on peut comprendre que toutes les énergies chez Microsoft soient concentrées sur ces projets, et que la version propriétaire soit moins stratégique... Les équipes de recherche de Google et de YST ont du souci à se faire. Et l’armée d’avocats de Microsoft doit déjà préparer les prochains recours pour "abus de position dominante". [Bibliographie] Brilliant :
Towards A Next-Generation Search Engine
Clustering User Queries of a Search Engine
Jian-Yun Nie
Hong-Jiang Zhang
AskMSR :
Data-Intensive Question Answering
An Analysis of the AskMSR Question-Answering System
Stuff that I’ve Seen :
Stuff I’ve Seen : A System for Personal Information Retrieval and Re-Use
Autres articles intéressants des mêmes auteurs
Inductive Learning Algorithms and Representations for
Text Categorization
Discovering Internet Resources to Enrich a Structured
Personal Information Space
ROBUST LANGUAGE UNDERSTANDING IN MIPAD
Robust Parsing in Spoken Dialogue Systems
[1] un projet dirigé notamment par Qiang Yang, un chercheur canadien invité par le laboratoire de Microsoft à Pékin [2] concept space coverage hypothesis : hypothèse de couverture de l’espace conceptuel [3] robust parsing [4] Dans une interview de CNet en octobre 2003, Bill Gates déclarait : "Je suis le plus grand partisan de cette approche. Il a fallu du temps pour que les technologies de bases de données mûrissent et deviennent capable de gérer des données hétérogènes. C’est la révolution qu’à introduit le XML dans les bases de données. Cela n’a rien de surprenant qu’en développant la version Yukon de Sql Server, nous nous sommes dit "Wow, il y’a des choses que nous pouvons réutiliser dans le système d’exploitation là dedans !". |
|
||
|