L’autre sémantique – Le Web Sémantique et les systèmes de recherche d’information. [3.1]

Avec le « web sémantique », nous abordons une approche différente du problème de la détermination du « sens » des contenus web ou de leur thématique.

Les autres méthodes décrites essaient de tirer l’information existante des pages telles qu’elles sont aujourd’hui, et en particulier du contenu textuel des pages. Les résultats obtenus sont de plus en plus intéressants, mais trouvent leurs limites pour certaines applications. La désambiguation est encore balbutiante par exemple, essentiellement parce que l’humain qui lit une phrase isolée dispose en réalité d’une grande quantité d’informations de contexte dont un programme ne disposera pas.

Le « web sémantique » part donc d’un constat : les machines auront durablement de grandes difficultés à déterminer le sens d’une phrase ou la nature d’un contenu. L’une des solutions consiste donc à l’aider en ajoutant de l’information, sous une forme (tant qu’à faire) directement réutilisable par un logiciel.

L’apport théorique du web sémantique dans la création d’outils de recherche bien plus performants et pertinents est indéniable. Pourtant, ce grand projet de Tim Berners Lee fait l’objet de vives polémiques, car certains estiment qu’il est en grande partie utopique. Mais certains aspects de la polémique démontrent surtout que le « sémantic web » est un projet mal connu et mal compris. Et la confusion générale avec les outils de linguistique statistique et surtout avec les balises HTML dites « sémantiques » ne facilite pas les choses…

SOMMAIRE
L’autre sémantique – Le Web Sémantique et les systèmes de recherche d’information.
-1 : Définition et principes
-2 : Les fausses amies, les balises sémantiques
-3 : Le Web Sémantique : une utopie condamnée ou une révolution en marche ?
-4 : Web sémantique et outils de recherche

Un projet de Tim Berners Lee et du W3C

Le projet « semantic web » est né au sein du Consortium W3C à l’initiative de Tim Berners Lee.

Tim Berners Lee
JPEG - 5 ko
Tim Berners Lee
Crédit W3C – Fabian Bachrach

Diplômé de l’Université d’Oxford (en Angleterre), Tim Berners Lee occupe aujourd’hui la chaire « 3Com Founder » au sein du Laboratoire d’Informatique et d’Intelligence Artificielle (CSAIL) au « Massachusetts Institute of Technology » (MIT). Il dirige le World Wide Web Consortium, une organisation dont la mission est de permettre au Web d’atteindre son plein potentiel.

Sa spécialité d’origine était la conception de systèmes de communication en temps réel, et le développement de logiciels de traitements de documents textuels. Alors qu’il travaillait pour le CERN, il inventa en 1989 le « World Wide Web », en exploitant le principe de l’hypertexte et en utilisant le réseau internet, afin de créer un système global de partage d’information. Il développa le premier client web et le premier serveur en 1990.

Le concept de « web sémantique » est apparu dans un article fondateur de Tim Berners Lee publié en Mai 2001 (voir bibliographie). Cet article a suscité de nombreuses réactions curieuses, démontrant que beaucoup n’en ont pas compris le sens profond [1]

Depuis, le consortium W3C travaille d’arrache pied au développement des normes et des définitions de standards du web sémantique (mais au rythme qui le caractérise, c’est à dire en gros le rythme d’avancement du dictionnaire de l’académie française).

Il faut préciser, pour la vérité historique, que la plupart des « briques » qui constituent le web sémantique existent depuis plus longtemps, et n’ont pas été imaginées par Berners Lee. C’est vrai notamment pour RDF, les ontologies etc…

1. Le Web Sémantique : principes et applications

L’idée de base est, on l’a déjà dit, d’ajouter de l’information dans les documents pour permettre aux machines de traiter le contenu de manière intelligente [2].

Mais dans le web sémantique, on ne va pas stocker n’importe quel type d’information, ni n’importe comment.

L’idée la plus basique, pour indiquer que « rose » est une fleur, serait de tagger le nom rose avec une balise de type . On crée ainsi des couples « contenu, catégorie », ou « contenu, nature », ou « contenu, propriété ».

Mais depuis fort longtemps (depuis que l’on essaie de construire des thésaurus en fait) on s’est aperçu qu’il existe de nombreux types de relations possibles entre deux éléments… La solution est donc de stocker un triplet d’informations (élément 1, élément 2, relation entre 1 et 2).

Dans le web sémantique, ces triplets d’information sont appelés « définitions », et sont stockés à l’aide d’un dialecte du XML, appelé RDF (Resource Description Framework).

Dans RDF, les termes utilisés pour élément 1, élément 2, relation entre 1 et 2 sont appelés respectivement sujet, objet, et prédicat.

PNG - 947 octets
Triplet RDF

Pour les connaisseurs, cela signifie que RDF sert en fait à décrire des graphes orientés étiquetés, ce qui signifie que toute la branche des mathématiques (théorie des graphes orientés) qui les étudie est directement utilisable pour le web sémantique.

GIF - 3.7 ko
Graphe RDF
Le graphe est étiqueté car on indique sur la flèche la nature de la relation, il est orienté car la flèche indique que la relation va de l’élément à gauche vers l’élément à droite

Si l’on crée deux règles qui partagent un même élément, on crée un « noeud » :

{rose,fleur,"appartient à la catégorie"}
{fleur,végétal,"appartient à la catégorie"}dans ce cas, fleur qui passe du statut d'objet à sujet, est un "noeud"

Le tout permet de créer des graphes complexes, qui décrivent de manière efficace des collections d’objets et les relations qui les unissent.

GIF - 4.8 ko
Exemple de graphe plus complexe
Un graphe comportant plusieurs noeuds et des relations multiples

En fait, les « éléments » sont en réalité stockés sous forme d’URI (Uniform Resource Identifier, manière standard d’identifier une ressource physique ou abstraite, dont l’une des applications particulières sont les URL)

Exemple de transcription en RDF d’une définition

Prenons pour exemple la définition suivante :

Victor Hugo est l'auteur du livre: Les Misérables.

Cela se transpose en composantes RDF de la façon suivante :

Sujet / Ressource: http://www.monsite.com/Hugo
Prédicat / Propriété: Auteur de
Objet / Littéral: "Les misérables"

Une fois que respecte le formalisme propre à RDF cela donne :

 

Les Misérables

 

Le langage OWL et les ontologies

Si RDF est déjà un dialecte du XML, il crée une description trop générique des graphes de relations dans un ensemble d’objets pour être utilisé simplement par un programme…

C’est pourquoi le W3C a créé dans le projet du web sémantique le « langage » OWL, qui est en fait une extension spécialisée de RDF destinée à la création des ontologies nécessaires au fonctionnement du web sémantique. Le « vocabulaire » défini par OWL permet notamment d’introduire des relations logique de type inférence.

Les briques nécessaires au fonctionnement du web sémantique

En fait, on voit que le web sémantique s’appuie sur les normes et standards existants :
- le protocole http:
- les URI
- le langage XML

Auxquels s’ajoutent deux outils spécifiques :
- RDF
- OWL

Il existe deux autres outils spécifiques :
- RDF Schema : langage permettant de créer des vocabulaires, ensembles de termes utilisés pour décrire des choses
- et SPARQL qui est un langage de requêtes spécialisé dans l’extraction d’informations issus de documents RDF.


Quelques applications grand public de RDF et des ontologies

Il existe en fait déjà des applications concrètes des concepts du web sémantique, et notamment de RDF :

- Dublin Core pour le classement bibliographique.
- RSS version 1.0.
- Firefox : RDF est utilisé pour les bookmarks et pour les fichiers de « localisation » (traduction des messages).
- Wikipédia : le contenu est disponible sous la forme de 47 millions de triplets.
- SKOS

Philippe YONNET

Prochain article : 2 : Les fausses amies, les balises sémantiques

On confond souvent la notion de balises sémantiques avec le web sémantique. Cet article a pour objectif d’essayer de clarifier les choses.


[1] Ce qui s’agissant d’un article sur le web sémantique, ne manque pas de piquant… Mais il semble que cette difficulté du grand public, même initié, à comprendre de quoi il s’agit vraiment poursuit cette initiative. On peut expliquer cela déjà par la tendance naturelle des promoteurs du W3C à l’emploi d’un jargon inintelligible, et à produire des documents qui ressemblent plus à des circulaires administratives qu’à des articles de vulagrisation. Mais le problème réside aussi dans la nature abstraite des concepts mis en oeuvre : le web sémantique, pour être déployé, demande que l’on manipule des abstractions sur d’autres abstractions. Ce qui, on le sait, n’est pas à la portée de tous.

[2] A propos d’intelligence, la vision de Tim Berners Lee apporte quelque chose de nouveau quant à la notion d’intelligence artificielle : jusqu’ici ce que l’on appelait intelligence artificielle n’avait pas bougé depuis les années 70, et reposait sur un système central doté de sa propre base de données, qui constituait la source de l’intelligence du système. Le web sémantique créerait un système sans base de données propre, mais accédant à des documents « intelligibles », stockés quelque part sur le web, avec une logique totalement décentralisée, et constituant l’intelligence d’un système « global » au sens américain du terme, c’est à dire planétaire. Le web sémantique est aussi une vision pragmatique de l’IA, c’est à dire qu’on ne cherche plus à rendre une machine « intelligente », ce qui se révèle assez vain, mais qu’elle se comporte de manière jugée intelligente, et utile.