Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ?

A quoi ressemblera le nouveau moteur de Microsoft ? Pourquoi la firme de Bill Gates met elle tant de temps à le lancer ? Quel algorithme sera utilisé : un dérivé des solutions existantes, ou quelque chose de fondamentalement nouveau ?

Beaucoup de gens aimeraient connaître les réponses à ces questions. Et parmi eux, les dirigeants de Google et Yahoo. Microsoft maintient un secret total sur le sujet, mais comme d’habitude, il est toujours possible de se faire une idée sur les « pistes » explorées par une entreprise de haute technologie en étudiant ses projets de recherche. Et là, ce que l’on trouve tourne systématiquement autour de la compréhension du langage naturel, et de l’intégration des outils de recherche dans les applications et le système d’exploitation.

Parmi ces projets, trois attirent l’attention : Brilliant, moteur de recherche expérimental du laboratoire de Microsoft en Chine, askMSR de Brill, et Stuff I’ve Seen de Dunais. Mais il faut aussi se demander quelle place ces outils auront dans Longhorn, le futur OS révolutionnaire de Microsoft.

Brilliant, un moteur de recherche qui comprend ce qu’on lui demande

Jusqu’ici, les moteurs de recherche ont connu deux évolutions parallèles. D’un côté, nous avons vu naître des moteurs s’appuyant sur la recherche de mots clés. Ce type de moteurs est le plus répandu : Google, Yahoo, MSN fonctionnent sur ce principe. Ensuite, il y’a les moteurs à la « AskJeeves » : moins connus, moins populaires, ils fonctionnent sur le principe d’une indexation manuelle des questions et de leurs réponses… Ce dernier type de moteur permet de donner des résultats plus pertinents, mais il demande un nombre considérable d’heures de travail pour aboutir à une base de questions/réponses suffisante.

Les chercheurs à la base du projet Brilliant [1] ont réussi à élaboré le prototype d’un moteur d’un genre nouveau, qui est capable de comprendre ce qu’on lui demande, et capable d’élaborer automatiquement la liste des bonnes réponses à donner. Le projet part d’un postulat vérifié par l’expérience : un faible nombre de concepts permet de couvrir la plupart des requêtes des internautes. [2]. C’est ce qui permet d’automatiser le processus d’indexation des FAQ.

Le moteur Brilliant s’appuie tout d’abord sur un analyseur de langage naturel. Les questions posées au moteur peuvent donc être posées en langage naturel, et non en tapant des mots clés. L’analyseur utilise les dernières avancées dans le domaine (Microsoft est très en pointe sur le sujet), et notamment les méthodes d' »analyse robuste » [3], qui permettent de mieux comprendre les questions mal exprimées ou remplies de fautes de frappe, de grammaire, ou d’orthographe. En fait, Brilliant reprend la technologie Leap, qui est utilisée dans un nouveau système de reconnaissance vocale récemment lancé commercialement par Microsoft.


Si Leap comprend la phrase qui exprime la requête, il renvoie un « arbre » sémantique, qui servira à l’analyse ultérieure. Sinon, les mots clés sont renvoyés sans correspondance avec une classification sémantique (une ontologie). Ensuite, des méthodes probabilistes permettent d’affiner la qualité de la réponse renvoyer.


Exemple :

Imaginons que la requête soit :
Quelle route prendre pour aller de Pékin à Shanghai ?

Le parser LEAP renverra l’arbre suivant :
Quelle route prendre pour aller de {endroit} à {endroit} ?
Quelle route prendre pour aller de {endroit} à {endroit} ?
{endroit}
{endroit}

Ensuite, le système est entraîné pour savoir comment réagir correctement aux variantes. Les requêtes sur les moteurs de recherche sont souvent courtes et stéréotypées, donc facile à comprendre, mais parfois ambigues.

@route @de pékin @à shanghai : doit être interprété comme signifiant la même chose que la première requête
@route pékin @à shanghai : également, avec une forte probabilité, même si elle n’est plus de 100%
pékin @à shanghai : est ambigu, donc la règle donnée par LEAP ne doit plus être utilisée. Les réponses données seront « générales » et moins précises.

La phase suivante constitue à créer une base de FAQ. Une liste de concepts est stockée avec les réponses associées. Avec les concepts, sont également stockés tous les synonymes qui renvoient vers ces mêmes concepts.

La liste des FAQs (réponses à des questions type) est ensuite constituée. Chaque FAQ est attachée à un ou plusieurs concepts, avec une « note » qui mesure sa « pertinence » selon le concept associé.

L’ensemble permet donc de constituer un système de FAQ à la AskJeeves, mais de manière presque entièrement automatique… Un outil qui doterait MSN de fonctionnalités tout à fait intéressantes, permettant de fournir à un internaute des pages vraiment pertinentes, dès lors que la question posée est précise et compréhensible.

Brilliant n’est pas un projet présenté comme complétement opérationnel. Pour cela, il semble qu’il manque les outils permettant d’indexer et sélectionner les FAQ. Mais ce n’est sans doute pas la partie la plus difficile, et peut-être ce travail a déjà été achevé au moment où nous écrivons cet article.

Une chose est certaine en tout cas : l’idée de fournir des outils de recherche capables de donner des réponses claires à un internaute, et pas uniquement une liste de pages, est un vrai axe de recherche chez Microsoft. Un autre projet, AskMSR, constitue une autre forme de réponse, plus originale, à ce défi.

AskMSR, l’application qui cherche des réponses sur la Toile, au lieu de documents

Entrez la question suivante dans AskMSR :

Quelle est la date de la bataille de Marignan ?

et AskMSR répond

1515

Bon, vous n’êtes peut être pas impressionnés. Sauf que AskMSR ne tire pas ses informations d’une verson évoluée de l’Encyclopaedia Universalis (ou d’Encarta, nous sommes chez Microsoft), ni d’une base de FAQ, mais de la Toile Mondiale…

Comment cela fonctionne-t’il ?

Tout d’abord, la requête (une question) est reformulée en une expression qui est susceptible de se trouver à proximité de la réponse. Par exemple « Qui a inventé le téléphone » est reformulé en « Le téléphone a été inventé par ». C’est cette deuxième expression qui est réellement cherchée sur internet…

Les réponses des moteurs de recherche sont ensuite analysées. Les moteurs utiles pour cette phase sont ceux qui fournissent, comme Google, un « extrait » de la page qui entoure l’expression trouvée. Ces résumés sont ensuite utilisés pour extraire les réponses potentielles sous forme de monogrammes, bigrammes, trigrammes (un mot, deux mots, trois mots)

Une analyse est ensuite faite sur les réponses les plus probables. Les N-Grammes sont retraités par des filtres (conçus par des experts, qui ont défini sept types différents de questions nécessitant des traitements différents au niveau des réponses), et éventuellement assemblés (si les réponses les plus probables sont les trigrammes A B C et B C D, la réponse formulée pourra être A B C D)

L’une des possibilités intéressantes de AskMSR, c’est qu’il sait aussi répondre « Je ne sais pas »… Détecter une mauvaise réponse potentielle est en effet un élément essentiel pour ce genre d’applications. Ceci a été rendu possible par l’ajout d’un système d’évaluation des réponses à partir d’un arbre de décisions et d’un système capable d’être « entrainé » par un opérateur humain à reconnaître les mauvaises réponses…

Stuff I’ve Seen, l’outil qui fonctionne comme votre mémoire, mais qui n’oublie rien

Stuff I’ve Seen est un outil développé par l’équipe de Susan Dumais au sein de Microsoft Research. SIS a été imaginé pour aider un utilisateur de PC à retrouver facilement une information, non pas n’importe où mais dans les pages webs, fichiers, mails, documents de tous types qu’il a consultés auparavant.

Les études du comportement des internautes ont permis en effet de se rendre compte qu’en règle générale, on ne cherche que des informations dont on connait l’existence, dans des endroits dont on connait l’existence. Il est particulièrement fréquent d’avoir à rédiger des rapports, qui nécessitent de retrouver des données dans ses mails ou dans des fichiers que l’on a déjà consultés, ou dans des sites webs que l’on a déjà parcourus. Ce type de travail, pour être efficace, demande d’être particulièrement organisé, et d’avoir une bonne mémoire. Mais même pour une personne organisée, cela demande du temps, car il faut aller piocher les informations en effectuant des recherches successives dans des outils propriétaires différents (la fonction de recherche d’un client mail, un moteur de recherche pour le web, la fonction « recherche » de l’OS du PC pour les fichiers, et la fonction « rechercher » d’une application si le fichier ouvert contient beaucoup d’informations.


Stuff I’ve Seen a d’abord été doté de la capacité d’indexer n’importe quel type de documents : page web, mail, fichiers de toutes sortes. Et au fur et à mesure que vous utilisez votre PC, Stuff I’ve Seen enregistre ce que vous consultez. Ce formidable index permet donc ensuite de pouvoir retrouver facilement les informations dont vous avez besoin. Qui plus est, comme le contexte de la consultation a été enregistré, SIS se sert de ces informations pour augmenter la pertinence de ses réponses.

SIS est encore un prototype, mais il fonctionne… L’indexation permanente ralentit la machine, et génère une quantité énorme de données, mais ce ne sont que des problèmes mineurs, que les équipes de Microsoft s’efforcent de résoudre.

L’équipe de Susan Dumais développe maintenant une application dérivée plus expérimentale, baptisée « Implicit Query ».

Quelle technologie dans Longhorn ?

Beaucoup d’observateurs se sont étonnés de voir Microsoft tarder à se joindre à la bataille entre moteurs de recherche. Le lancement du moteur propriétaire sur MSN a été annoncé dès 2003, puis repoussé sine die. La date de juillet 2004 a été ensuite avancée, mais cette information a été démentie (il n’y aura qu’un changement d’interface).

Bizarre… bizarre… Pourquoi Microsoft, avec ses moyens, semble incapable de lancer un moteur concurrent à Yahoo ou Google ? Un aveu d’impuissance, ou un manque de compétences ? Microsoft a répété régulièrement son intérêt pour les activités liées aux moteurs de recherche. Alors, que se passe-t’il ?


L’une des explications possible serait que Microsoft cherche à lancer quelque chose qui soit véritablement nouveau, et qui lui donne un avantage concurrentiel majeur dès son lancement. Pour cela, Microsoft dispose d’un atout maître : Microsoft peut intégrer ses outils de recherche directement dans ses systèmes d’exploitation…

En fait, Microsoft juge cette approche prioritaire. Intégrer les fonctions de recherche profondément dans ses applications et son système d’exploitation est un objectif que Bill Gates a assigné depuis des années à ses équipes [4]. Et Longhorn, le futur système d’exploitation dont le lancement est prévu pour début 2006, a été conçu pour faciliter cette approche.

Au coeur de Longhorn, se trouve WinFS, un système nouveau de stockage de fichiers. WinFS utilise NTFS, qu’il ne remplacera pas. WinFS permet de stocker automatiquement des informations complémentaires (grâce à des méta-données XML) sur le contenu de chaque fichier, ce qui permet d’effectuer des recherches sur des données hétérogènes.

Cette technologie fait évidemment des merveilles lorsqu’elle est combinée aves des outils comme SIS, ou Implicit Query. Et il y’a de fortes chances qu’on les retrouve effectivement dans la version définitive de Longhorn … Comme AskMSR.

Et on annonce aussi une version Longhorn de … MSN. A quoi ressemblera-t’elle ? Mystère…

En tout cas, on peut comprendre que toutes les énergies chez Microsoft soient concentrées sur ces projets, et que la version propriétaire soit moins stratégique…

Les équipes de recherche de Google et de YST ont du souci à se faire. Et l’armée d’avocats de Microsoft doit déjà préparer les prochains recours pour « abus de position dominante ».

[Bibliographie]

Brilliant :
Towards A Next-Generation Search Engine
Qiang Yang1, Hai-Feng Wang, Ji-Rong Wen, Gao Zhang, Ye Lu1, Kai-Fu Lee,
Hong-Jiang Zhang
Microsoft Research China

Clustering User Queries of a Search Engine
Ji-Rong Wen
Microsoft Research, China

Jian-Yun Nie
Dept. Informatique et Recherche opérationnelle – University of Montreal

Hong-Jiang Zhang
Microsoft Research, China

AskMSR :
Data-Intensive Question Answering
Eric Brill, Jimmy Lin, Michele Banko, Susan Dumais and Andrew Ng
Microsoft Research
One Microsoft Way
Redmond, WA 98052

An Analysis of the AskMSR Question-Answering System
Eric Brill, Susan Dumais and Michele Banko

Stuff that I’ve Seen :
Stuff I’ve Seen : A System for Personal Information Retrieval and Re-Use
Susan Dumais, Edward Cutrell, JJ Cadiz, Gavin Jancke, Raman Sarin, Daniel C. Robbins
Microsoft Research
One Microsoft Way Redmond, WA 98052 USA

Autres articles intéressants des mêmes auteurs
Inductive Learning Algorithms and Representations for
Text Categorization

Susan Dumais
John Platt
David Heckerman
Mehran Sahami

Discovering Internet Resources to Enrich a Structured
Personal Information Space

Michèle Ouellet
Jan Gecsei, Jian-Yun Nie

ROBUST LANGUAGE UNDERSTANDING IN MIPAD
Ye-Yi Wang

Robust Parsing in Spoken Dialogue Systems
Pengju Yan, Fang Zheng, and Mingxing Xu


[1] un projet dirigé notamment par Qiang Yang, un chercheur canadien invité par le laboratoire de Microsoft à Pékin

[2] concept space
coverage hypothesis : hypothèse de couverture de l’espace conceptuel

[3] robust parsing

[4] Dans une interview de CNet en octobre 2003, Bill Gates déclarait :
« Je suis le plus grand partisan de cette approche. Il a fallu du temps pour que les technologies de bases de données mûrissent et deviennent capable de gérer des données hétérogènes. C’est la révolution qu’à introduit le XML dans les bases de données. Cela n’a rien de surprenant qu’en développant la version Yukon de Sql Server, nous nous sommes dit « Wow, il y’a des choses que nous pouvons réutiliser dans le système d’exploitation là dedans ! ».