L’autre sémantique – Le Web Sémantique et les systèmes de recherche d’information. [3.4]

Si l’on en croit les promoteurs du Web Sémantique, si tout le World Wide Web respectait les standards « sémantiques », il serait possible, théoriquement, de construire des outils de recherche bien plus performants que ce que nous connaissons aujourd’hui.

Cette perspective devrait en principe intéresser les grands acteurs du monde de la recherche. Force est de constater que la plupart ne sont guère enthousiastes, et en tout cas, peu pressés de dépenser de l’argent ou de l’énergie pour développer des projets autour du web sémantique…

Nous allons essayer d’expliquer pourquoi dans un premier temps. Puis nous allons étudier SEMTAG en tant qu’exemple d’une application « industrielle » possible du web sémantique. Enfin, nous concluerons en tentant de faire le point sur ce que pourrait être l’avenir du grand projet de Tim Berners Lee.

SOMMAIRE
L’autre sémantique – Le Web Sémantique et les systèmes de recherche d’information.
-1 : Définition et principes
-2 : Les fausses amies, les balises sémantiques
-3 : Le Web Sémantique : une utopie condamnée ou une révolution en marche ?
-Web sémantique et outils de recherche

Le Web sémantique et les moteurs de recherche « grand public »

Aujourd’hui, les moteurs de recherche comme Google, Yahoo, ou MSN indexent les sites web construits selon les standards du web sémantique sans exploiter les métadonnées qu’ils contiennent.


C’est vrai notamment des balises dites « Dublin Core » qui sont superbement ignorées par les moteurs grand public.

C’est vrai aussi des balises dites « sémantiques ». L’exemple de la balise H1 constitue l’exception attendue à la règle.

Pourtant, on pourrait s’attendre à ce que l’apport d’information obtenu grâce à ces balises soit le bienvenu pour améliorer la qualité des résultats. C’est le cas, mais tenir compte de ces informations pose des problèmes aujourd’hui rédhibitoires, qui expliquent pourquoi ces informations ne sont pas exploitées.

Le balisage sémantique reste trop marginal pour que son exploitation soit utile

Je n’ai pas trouvé de statistiques concernant la proportion de sites utilisant correctement les concepts du web sémantique, mais une chose est sûre : entre un moteur qui exploite ces données et un moteur qui ne les exploite pas, le premier ne dispose d’aucun avantage sur le second. En fait, la proportion de pages correctement balisées n’est pas assez importante pour que l’exploitation des données soit « rentable ».

Les moteurs sont conçus pour arriver à gérer les pages codées « avec les pieds », mal formées, utilisant des balises et des techniques antédiluviennes, et pour continuer à les classer malgré tout dans les pages de résultats. Or ces pages constituent l’essentiel du web.

Une page utilisant un balisage sémantique est-elle plus pertinente ?

La réponse est non. Ce serait vrai si on pouvait être certain que la personne qui « étiquette » les données est 1°) sincère et honnête 2°) efficace. Or dans beaucoup de cas, on aura affaire à des spammeurs ou des gens qui n’appelleront pas un chat … un « chat ». Analyser le contenu plutôt que la désignation du contenu reste le moyen le plus sûr de ne pas se tromper sur la nature du contenu et sur le contenu lui-même.

De plus dans la plupart des cas, il faut comparer des pages sans infos sémantiques, avec des pages avec infos sémantiques. Le classement se fait donc sur les critères « non sémantiques ». Le contraire favoriserait les pages sémantiques, ce qu’aucun moteur ne voudra faire, car rien ne le justifie aujourd’hui.

Le web sémantique peut être violemment spammé

Le balisage sémantique par des être humains pose un sérieux problème, dès lors que les humains en question sont des « spamdexeurs » potentiels. Comment garantir que le balisage sémantique n’est pas « biaisé » à des fins de spam ?

Dans la pratique, les moteurs accordent la même confiance aux informations données par un balisage sémantique, que pour les balises méta : c’est à dire aucune. Ils sont d’autant plus réticents que des formes de spam nouvelles et difficiles à combattre sont possibles avec cette technique.

L’avis de Peter Norvig, Directeur du département recherche chez Google

Une déclaration récente de Peter Norvig, vient illustrer le point de vue des moteurs dans le débat sur l’avenir du web sémantique. Elle est intervenue en juillet 2006 lors d’une conférence organisée par l’American Association for Artificial Intelligence (AAAI), conférence à laquelle Tim Berners Lee participait également :

« On me dit fréquemment : « Pourquoi êtes vous opposé au Web Sémantique ». Je suis pas opposé au web sémantique. Mais, si l’on se place du point de vue de Google, il y’a quelques problèmes à résoudre, dont le premier est l’incompétence. » a déclaré Peter Norvig, en précisant qu’il ne se référait pas à Berners-Lee et à son groupe en parlant d’incompétence, mais à l’utilisateur lambda.
« Nous sommes confrontés à des millions de webmasters qui ne savent pas configurer un serveur, ne savent pas écrire de l’HTML. C’est difficile pour eux de passer à l’étape suivante. Le deuxième problème, c’est la concurrence. Certaines sociétés commerciales disent : je suis le leader ? Pourquoi devrais-je obéir aux standards ? Le troisième problème, c’est la fraude. Nous sommes confrontés chaque jour à des gens qui souhaitent améliorer leur classement dans les moteurs pour ensuite vendre du Viagra à des gens qui au départ ne cherchaient pas cela ! Si la supervision humaine accompagnant le web sémantique est insuffisante, nous sommes préoccupés par le fait qu’il serait plus facile de nous duper. »

Rappelons au passage que Peter Norvig est par ailleurs un excellent spécialiste de l’intelligence artificielle, et du traitement automatisé du langage et qu’il est plutôt un promoteur qu’un pourfendeur de la sémantique dans les moteurs de recherche. Mais nous en reparlerons plus loin.

[1]

L’exemple de SEMTAG : le balisage sémantique automatique est possible

L’un des principaux arguments des détracteurs du « Web Sémantique » consiste à rappeler qu’il faudrait qu’un nombre considérable d’acteurs différents se mettent à respecter des normes strictes, avant d’espérer pouvoir tirer parti pleinement des possibilités ouvertes par cette technologie.

Néanmoins, plusieurs sociétés ont mis au point des systèmes sophistiqués et très efficaces de « balisage » automatique des informations contenues dans une page web. Ceci peut donner de réels espoirs quant à l’avenir de cette technique, Ces solutions exploitent soient des ontologies propriétaires, soient directement la norme RDF/OWL.

Le retour de la vraie « sémantique appliquée »

Ces applications reposent sur des techniques de linguistique sémantique appliquée connues sous le nom de « extraction des entités nommées ». Les entités nommées rassemblent les noms de personne, les raisons sociales de société, et toutes les informations rattachées (les adresses, les numéros de téléphone, les emails…).

Un exemple d’ application efficace dans ce domaine est l’outil SEMTAG développé par IBM dans le cadre de son projet « Webfountain » [2].

SEMTAG : l’application de balisage de Webfountain

SEMTAG est une application de balisage sémantique automatique
commercialisée par IBM depuis l’automne 2003 dans le cadre de son produit Webfountain. SEMTAG s’appuie sur l’ontologie TAP [3] développée par l’université de Stanford (et déjà décrite plus haut).

GIF - 15.4 ko
Webfountain et les taxonomies de TAP
extrait des slides de
WebFountain_12.03.pdf

SEMTAG récupère les documents bruts ramenés par le crawler de Webfountain (Seeker), et les analyse, en essayant d’identifier les occurences de chacune des 72000 étiquettes présentes au sein de TAP. Chaque élément ainsi étiqueté est sauvegardé avec une fenêtre de 10 mots (afin de permettre une désambiguation ultérieure).

Puis un échantillon représentatif de ces données est traité pour déterminer la distribution des termes au sein du corpus ramené par Seeker. Cette phase est typique des traitements de sémantique appliquée.

Enfin, ces données sont réexploitées pour autoriser la désambiguation de chaque élément étiqueté. Si l’une des chaînes repérées est définitivement identifiée comme un élément des taxonomies de TAP, alors une version « taggée » (balisée) de ces données est stockée dans une base spéciale, afin de faciliter les recherches ultérieures.

GIF - 3.5 ko
Architecture de SEMTAG
Ill. extraite de « Semtag and Seeker : Bootstrapping the semantic web via automated semantic annotation »

Le problème des erreurs de classification et la désambiguation

Ces systèmes automatiques ont une fâcheuse tendance, soit à ne pas savoir « baliser » un élément qu’un humain aurait su reconnaître (en général uniquement grâce à une connaissance plus large du contexte), soit même à se tromper ! Certaines étiquettes apparaissent plusieurs fois au sein de TAP : Michael Jordan peut être identifié comme un statisticien, un musicien, un joueur de football … Comment choisir le bon ?
Ensuite, certaines « étiquettes » figurent dans l’ontologie, mais pas ses variantes les plus courantes et les moins signifiantes… « Sheila » est une « chanteuse », mais c’est également un prénom très courant. Et toutes les « Sheila » ne sont pas des chanteuses…

IBM a développé un algorithme de désambiguation baptisé TBD ( Taxonomy Based Disambiguation). On ne connait pas le détail de cet algorithme, mais il s’agit d’un système classique de désambiguation s’appuyant des calculs de similarité. [4]

Le résultat est spectaculaire : n’importe quel document est « taggé » à une vitesse extraordinaire, et avec une précision comparable (en fait supérieure en moyenne) à la plupart des « taggeurs humains » [5]

Le taggage automatique est-il utilisé dans Google ?

La question peut paraître saugrenue, mais plusieurs éléments plaident pour la présence dans les outils utilisés ou au moins étudiés) par Google, d’un outil ressemblant à SemTag, au moins dans ses objectifs.

En septembre 2004, Peter Norwig a révélé l’existence d’un projet reposant sur l’abstraction d’entités nommées… C’est à dire un outil permettant de distinguer dans une page que Michael Johnson est un nom de personne, et que le Michael Johnson dont on parle là est basketteur, et non agent d’assurance à Milwaukee. Le processus mis en oeuvre est différent de SEMTAG, dans la mesure où on ne s’appuie pas dans cette application sur une taxonomie existante, mais on contruit cette taxonomie ex nihilo (par « abstraction »).

Cet outil semble incomplètement déployé à l’heure actuelle. Néanmoins, certaines de ses caractéristiques semblent avoir des points communs avec ce qui apparait dans les « trusted sites » (liens spéciaux apparaissant en première position) : identification automatique d’une marque ou d’une raison sociale, identification de thématiques-clé..

Le Web Sémantique révolutionnera-t’il la recherche d’information ?

On vient de voir, et en dépit du bien fondé de certaines critiques des détracteurs du Web Sémantique, les avantages que cette technologie apporte dans plusieurs domaines sont indéniables, et certains obstacles humains peuvent être efficacement contournés…

Le Web Sémantique gagne du terrain chaque jour, et les outils permettant de faciliter le travail de « balisage » et permettant d’exploiter les possibilités de recherche offertes par les documents « sémantisés » se multiplient.

On peut noter aussi que les mêmes spécialistes de l’intelligence artificielle et du web qui se déclarent sceptiques quant à l’avenir du web sémantique sur le réseau mondial, le sont moins, voire pas du tout, lorsqu’il s’agit d’élaborer des outils de recherche limités à une machine, un réseau d’entreprises, ou à des applications circonscrites à des sites appartenant à un groupe d’entités homogènes.

Mais en même temps, on a l’impression de revivre la période 1998/1999, ou le XML était le « truc » dont on annonçait l’avènement pour demain matin, mais qui a mis plusieurs années supplémentaires à se développer, et qui ne s’est toujours pas totalement imposé.

En fait, le Web Sémantique est confronté à l’obstacle numéro un : le processus d’adoption d’une technologie lui-même. Il peut se passer des années entre le moment où une technologie arrive à maturité, et le moment de son adoption par la majorité des acteurs… Et le rythme de cette adoption ne dépend pas des promoteurs du Web Sémantique (le W3C en tête), mais de multiples autres facteurs, économiques, sociologiques, et même politiques !

Il faudra donc sans doute faire preuve de beaucoup de patience…

Philippe YONNET

BIBLIOGRAPHIE DE CET ARTICLE

Le Wiki d’Hervé Ligier sur le web sémantique

la recommandation RDF

Introduction à RDF / xlmlfr.org
_ xmlfr.org est un site du « web sémantique », je le signale, car cela ne se remarque pas au premier coup d’oeil

Yodesign.org Vue d’ensemble du langage OWL
_ yoyodesign.org est une excellente source d’infos sur le web sémantique.

Scientific American : The Semantic Web : A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities By Tim Berners-Lee, James Hendler and Ora Lassila (May 2001)

Les 7 illusions de la méta-utopie :
traduction de :
« Putting the torch to seven straw-men of the meta-utopia » (http://www.well.com/~doctorow/metacrap.htm) par Cory Doctorow. — Clément Pillias

le Web sémantique est une utopie :


[1] Voici la déclaration en « version originale »
« What I get a lot is : ‘Why are you against the Semantic Web ?’ I am not against the Semantic Web. But from Google’s point of view, there are a few things you need to overcome, incompetence being the first, » Norvig said. Norvig clarified that it was not Berners-Lee or his group that he was referring to as incompetent, but the general user.

« We deal with millions of Web masters who can’t configure a server, can’t write HTML. It’s hard for them to go to the next step. The second problem is competition. Some commercial providers say, ‘I’m the leader. Why should I standardize ?’ The third problem is one of deception. We deal every day with people who try to rank higher in the results and then try to sell someone Viagra when that’s not what they are looking for. With less human oversight with the Semantic Web, we are worried about it being easier to be deceptive, » Norvig said.

[3] en fait TAP est plutôt un ensemble de taxonomies qu’une ontologie complète

[4] Les papiers d’IBM parlent de tests effectués avec le Cosinus de Salton et tf*idf, ainsi que la méthode bayésienne, et tendraient à démontrer la supériorité des scores tf*idf dans ce contexte particulier.

[5] Les expériences de balisage sémantique réalisé par des humains démontrent que la plupart des opérateurs commettent de très nombreuses erreurs