L’autre sémantique – Le Web Sémantique et les systèmes de recherche d’information. [3.3]

Le Web Sémantique à ses militants inconditionnels, mais aussi ses pourfendeurs et ses détracteurs. Le débat porte sur le caractère utopique ou non de la démarche. Certains pensent que c’est une idée géniale, et qu’il est vital d’avancer le plus vite possible dans cette direction qui, de toute façon, finira par s’imposer. D’autres pensent que pour des raisons psycho-sociologiques, sociétales, politiques, commerciales, le web sémantique ne peut pas se généraliser car il demande une trop grande discipline.

SOMMAIRE
L’autre sémantique – Le Web Sémantique et les systèmes de recherche d’information.
-1 : Définition et principes
-2 : Les fausses amies, les balises sémantiques
-Le Web Sémantique : une utopie condamnée ou une révolution en marche
-4 : Web sémantique et outils de recherche

Les arguments des inconditionnels du web sémantique

Pour caricaturer, les arguments ressemblent au slogan du Loto : le web sémantique, c’est facile, c’est pas cher et ça peut rapporter gros

L’apport du web sémantique serait immense.

Le Web Sémantique offre un grand nombre de possibilités pour de nouvelles applications d’outils de recherche. Aujourd’hui, une recherche sur « Michael Johnson » est incapable de fournir des informations uniquement sur le chanteur. Inévitablement, le moteur de recherche sortira de nombreuses pages sur l’athlète ainsi que sur tous les Michael Johnson de l’Iowa, du Michigan ou d’ailleurs…

Plus intéressant encore, le web sémantique permet de différencier un contenu « sur » Paul Verlaine, d’un contenu écrit par Paul Verlaine !

Ces applications sont rendues possibles car le web sémantique fournit les outils pour décrire une chose, en permettant donc que par la suite cette chose puisse faire l’objet de traitements ultérieurs automatisés : publication, consolidation, indexation, enrichissement sémantique, etc.

JPEG - 28.1 ko
L’avenir et le web semantique
Illustration tireee d’un article de l’organisme MITRE

La grande bibliothèque universelle enfin à portée de main.

Les outils du web sémantique s’appuient sur le web, ce qui signifie que les corpus ainsi enrichis sont disponibles instantanément dans le monde entier…

Une seule page créée par un seul internaute et enrichie de métadonnées peut donc servir à alimenter une application qui compile les informations contenues dans des milliards de pages web.

Une telle base de données pourrait faire faire des progrès extraordinaires à la recherche scientifique et à l’échange de connaissances. Aujourd’hui, un chercheur doit lire (souvent pour rien) des milliers de pages d’articles avant de trouver deux paragraphes d’un collègue qui le feront avancer dans ses recherches. Les moteurs classiques lui permettent déjà de trouver beaucoup plus de publications qu’avant sur son sujet d’étude, mais trouver l’information dans ces articles demande de lire beaucoup d’articles pour rien. Le web sémantique lui épargnerait ce travail pour lui donner accès directement aux contenus directement en rapport avec ce qu’il cherche.

C’est une révolution qui ne révolutionne pas l’existant

Le Web sémantique ne fait au pire qu’ajouter des protocoles, et pour l’essentiel, fonctionne sur l’infrastructure technique existante du web. Inutile de reconstruire les réseaux, inutile de réécrire toutes les applications, le web sémantique peut se répandre de manière progressive sans rien remettre en question.

Pour les utilisateurs, aucune différence ne sera visible : on ne peut pas distinguer par l’apparence un site dont le contenu est conforme à la structure du web sémantique, d’un site dont le contenu est classique.

Pour mettre en oeuvre le web sémantique, il suffit que les producteurs de contenu changent leurs habitudes et enrichissent leurs informations de métadonnées.

Une évolution inévitable

Selon les promoteurs du web sémantique, les avantages évidents du système ne peuvent que produire son adoption progressive par l’ensemble des acteurs. Pour y parvenir, il faut juste de l’huile de coude… Ce n’est même pas une histoire d’argent, les gains étant évalués par eux comme supérieurs aux coûts. Tout est donc question de volonté.

Le rythme d’adoption est donc lié au rythme de diffusion de l’information et des exemples donnés par certains « leaders d’opinion ». Les concepteurs d’outils d’édition de contenu ou de navigateurs sont en première ligne. Certains « pro web sémantique » se sont donc lancés dans un prosélytisme très actif vis à vis de certains acteurs. Et quelques uns d’entre eux ont visiblement du mal à comprendre le manque d’enthousiasme de la plupart de leurs interlocuteurs.


Les arguments des sceptiques

Un certain nombre de voix se sont élevées pour dénoncer le caractère utopique de la démarche. Certains vont jusqu’à critiquer le W3C pour la perte de temps et d’énergie inutile engendrée par ce projet porté par Tim Berners Lee, alors que d’autres dossiers jugés plus prioritaires sont en souffrance.

Le coût réel du passage au web sémantique est un obstacle

Le travail nécessaire pour enrichir un contenu avec les outils du web sémantique n’est pas négligeable. L’apport immédiat pour le producteur de contenu n’est pas évident. Une simple analyse « coût/opportunité » refroidit donc la plupart des acteurs.

La motivation des producteurs de contenu n’est pas toujours altruiste

Le web n’est pas un gentil club de scientifiques avec des réflexes altruistes. Les motivations qui prévalent dans la mise en ligne de contenus sont le plus souvent économiques, et même parfois politiques. Lorsque le contenu est créé sans volonté de rapport économique, il s’agit le plus souvent de pages personnelles, dont la majorité ne contiennent pas d’informations exploitables (voir les blogs par exemple).

Lorsque les motivations sont économiques, il faut remarquer que dans de nombreux cas, ce n’est pas le producteur de contenu qui bénéficie du « plus » apporté par les métadonnées, mais l’utilisateur du contenu. Oublier cet aspect c’est donc faire fi des réalités économiques et des conflits d’intérêts.

Si les motivations sont politico-sociales, la volonté de biaiser le système en le détournant de ses objectifs peut être grande. Le web est devenu un espace dans lequel les enjeux sociétaux sont de plus en plus présents.

Enfin, dans de nombreux cas, la volonté de créer des pages contenant un rapport signal/bruit élevé est totalement absente. Le web est rempli de contenus sans intérêt, et cette tendance ne fait que se renforcer.

Le risque est grand de toute façon de générer de nouvelles formes de spam avec ce système.

Les limites de l’enrichissement par des humains

Autre argument des contempteurs du web sémantique : même un producteur de contenu motivé peut mal se servir des ontologies et des outils du web sémantique.

D’abord, certains ont observé que le webmaster lambda ne comprend rien aux concepts sous-jacents dans le web sémantique. Un minimum de capacité à manipuler un double niveau d’abstraction est requis, or la plupart des gens s’arrêtent au premier niveau.

Le risque est grand, dans ces conditions, que les bonnes pratiques ne se répandent pas aussi facilement qu’il le faudrait.

Par ailleurs, la qualité de l’enrichissement obtenu dépend totalement du talent de l’auteur des métadonnées. Or là, le risque est grand de récupérer des contenus mal classés, mal catégorisés, mal qualifiés. Aux erreurs involontaires, aux approximations, aux oublis, s’ajoutent en plus le risque d’ajout volontaires de metadonnées sans rapport avec le contenu réel (la nouvelle forme de spam évoquée plus haut).

Le web sémantique a pour objectif d’améliorer le rapport signal sur bruit. Mais en créant une étape intermédiaire de description du contenu par des humains, certains ne croient pas qu’on améliore la qualité de l’information, puisque des métadonnées mal remplies font même perdre des informations accessibles dans le contenu initial.

C’est ce que l’auteur d’un article très caustique a illustré par ses « septs illusions de la méta-utopie ».

1. Les gens mentent
2. Les gens sont paresseux
3. Les gens sont stupides
4. Mission : Impossible — connais-toi toi-même
5. Les schémas ne sont pas neutres
6. Les métriques influencent les résultats
7. Il y a plus d’une façon de décrire quelque-chose

Les grands acteurs du web s’en fichent

Pour le moment, les grands acteurs du World Wide Web semblent peu désireux de faire avancer les choses. C’est vrai chez Microsoft, où l’intégration du web sémantique dans les navigateurs ou dans les applications n’est pas une priorité, et même chez Google, qui semble se satisfaire du web actuel.

Quand on est au somment de la chaine alimentaire dans un ecosysteme, changer l’environnement n’est pas une priorité, rien de plus normal….

Et si on se trompait de combat

Le « web sémantique » est une démarche universelle, dans le projet de Tim Berners Lee. Mais la plupart des pourfendeurs de l’utopie reconnaissent que les outils et les concepts marchent dans certains contextes, comme celui de la recherche de documents intra entreprises ou des outils divers application d’outils collaboratifs.

Le paradoxe, c’est donc que les premières applications répandues dans le grand public du web sémantique risquent fort d’être des applications commerciales.

D’ailleurs, cette évolution a déjà commencé et certains outils ont déjà fait leur apparition dans les entreprises.

Philippe YONNET

Prochain article : Web Sémantique et outils de recherche