Direct Answers from Encarta

Il s’agit d’un système capable de comprendre certaines questions formulées en langage naturel, et qui délivre en réponse une définition, une date, ou un fait extrait de l’encyclopédie « Encarta » de MSN.

Même si cette fonctionnalité est encore limitée, et n’existe que sur la version US du moteur, elle est révélatrice de la direction dans laquelle plusieurs équipes de chercheurs de Microsoft travaillent à l’heure actuelle.

Le principe de Direct Answers

Direct Answers from Encarta (réponses directes tirées d’Encarta) est une nouvelle technologie de MSN Search qui est capable de reconnaître si une requête tapée par un internaute correspond éventuellement à un type de questions spécifique, qui peut trouver une réponse factuelle tirée de l’encyclopédie de Microsoft, plutôt qu’une page de résultats classiques.

Cette technologie est capable de « comprendre » la syntaxe d’une question, pour savoir quel type d’information est demandée. Le système ne renvoie de réponses que si :

1. Encarta contient effectivement une réponse à la question
2. La probabilité que cette réponse soit la bonne est très élevée

Dans les autres cas, c’est une page de résultat classique qui est renvoyée.

Dans certains cas, la syntaxe ne suffit pas à résoudre
toutes les ambiguités contenues dans une question. Mais le système parvient néanmoins parfois à répondre, grâce à un algorithme particulier qui évalue la probabilité que la requête porte sur un sujet donné plutôt que tel autre.

Direct Answers en action

Imaginons que j’ai besoin de trouver la date de la mort de Napoléon…

Testons le système, et tapons, en langage naturel, la question : « Napolon death ».

Voila ce que j’obtiens ! :


5 mai 1821, c’est bien ça …

Pas mal. Allons voir maintenant ce que donnent la même requête entrée dans un moteur concurrent. Que me répond Google ?

Google me donne une liste de liens, et j’aperçois dans les snippets la date du 5 mai 1821… Mais il faut que je clique sur les pages pour m’assurer qu’il s’agit bien de la date de sa mort, et pas d’autre choses…

Maintenant, testons autre chose sur MSN Search : quelle est la hauteur du Mont Blanc ?

Je demande « How high is Mont Blanc »

Réponse :

Answer :
Mont Blanc, Europe : elevation, max : 15,782 ft

Zut, évidemment, la réponse est en pieds… Qu’à cela ne tienne, demandons combien cela fait en m.

Question : « what is 15,782 feet in meters ? »

Réponse :

Answer :
15782 feet = 4,810.3536 meters

Même si ces exemples sont impressionnants, disons tout de suite que Direct Answers ne comprend pas toutes les questions, et ne sait pas trouver toutes les réponses. Mais avec un peu d’habitude, on arrive à trouver très facilement certains faits ou éléments d’information directement.

Les types de questions auquel le système sait répondre

Voici ci-dessous un tableau résumant le type de questions auquel le système peut parvenir à trouver une réponse. Il faut noter que le système à l’air pour l’instant en phase « expérimentale », on peut s’attendre à quelques améliorations notables dans un futur proche.

Les exemples sont en anglais car ce système ne marche – pour le moment – qu’en anglais

Types de questions Exemples de requêtes
Définitions, dictionnaire – define fast
– definition of spanakopita
– What does emu mean ?
Calculs Calculs mathématiques de base :
– 8 * 8
– seven times twenty
– 5+3/2-(6*2-4)

· Puissances et racines
– 3^4
– four cubed
– 10 to the 3rd
– sqrt 9
– 4th root of 37

· Factorielles
– 5 !
– nine factorial

· Modulo
– 5%4
– 20 modulo 9

· Pourcentages
– 2% of 25
– 45 percent of 240

· Logarithmes (base e et base 10)
– ln 50
– log 45

· Fonctions trigonométriques
– cos 45 degrees
– (sin 100) * 50
– arc tan 25

· Constantes
– speed of light
– speed of sound
– what is e
– pi

Résolution d’équations · 2x + 5 = 10
· solve q ^ 2 – 4 = 9
· (2y^2)+(4y-10) = 9
Conversions · Distances
– How many inches in a mile ?
– centimeters in 2 feet
– micrometers in 10 miles
– What is a micrometer ?

· Poids
– 10 pounds in grams
– How many kilograms in 170 pounds ?
– number of picograms in a gram
– What is a picogram ?

· Temps
– seconds in a day
– How many days in a fortnight ?
– What is a millisecond ?

· Volumes
– How many pints in 18 quarts ?
– cups in a liter

· Températures
– What is 63 degrees F in C ?
– 100 deg Celsius in Kelvin
– What is 500 Kelvin in Fahrenheit

Recherche de faits · Géographie
– What is the population of Europe ?
– population density of California
– Brazilian GDP
– Height of Mount Everest
– population of Chicago
– life expectancy of women in Japan
– depth of Atlantic ocean
– What is the capital of Kansas ?
– length of the Nile
– total area of the Great Lakes
– What is the mass of Jupiter ?
– height of the Washington Monument
– world population

· Personnages historiques
– vice president of George Washington
– What is Michelangelo known for ?
– Who killed Abraham Lincoln ?
– Who shot Abraham Lincoln ?
– facts about Albert Einstein
– party of Jimmy Carter

· Animaux
– What is the lifespan of a dolphin
– size of a bear
– ant facts
– giraffe habitat
– What are alligator feeding habits ?

· Questions sur des classements
– Largest city population in the world
– What country has the 2nd largest population ?
– Second tallest mountain height in the world
– What is the 3rd longest river length ?

· Questions datées
What was the population of France in 1980 ?
– U.S. unemployment rate in 1995
– Seattle population in 1990
– What was the US population in 1950 ?

· Questions au sens « deviné »
– How tall is Mount Fuji ?
– How high is the Washington Monument ?
– How big is Lake Erie ?
– How long is the Columbia River ?
– How big is China ?
– How large is California ?

Ce tableau n’est pas exhaustif, il ne donne que des exemples de questions que le système peut « comprendre ». Par contre, l’expérience prouve que si l’on s’éloigne des schémas des questions décrites ci-dessus, il est inutile d’espérer une réponse.

Mais comment ça marche ?

Pour comprendre comment un tel système peut fonctionner, on se référera à un de mes précédents articles, dans lesquels je décrivais deux applications expérimentales, qui présentent une certaine parenté (on peut même dire une parenté certaine) avec Direct Answers : AskMSR de l’équipe de Susan Dumais, et « Brilliant » le moteur développé par l’équipe chinoise de MSN avec le concours d’Eric Brill.

Pour ceux qui veulent en savoir plus sur la technologie à l’oeuvre ici, on se référera aussi aux articles situés dans la bibliographie de cet article :

Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ?

Philippe YONNET