|
Site Web : Pnambique Directeur du Pôle Experts de la société @position http://www.aposition.com Articles de l'auteur : La détection du Link Spam : un challenge pour les moteurs [3/4] La détection du Link Spam : un challenge pour les moteurs [2/4] La détection du Link Spam : un challenge pour les moteurs [Bibl.] La détection du Link Spam : un challenge pour les moteurs [1/4] Cuill veut surpasser Google grâce à l’analyse de données sémantiques 2007 : l’année des moteurs furtifs L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.4] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.3] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.2] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.1] Joachim Kreibich (Seekport) : pour nous, un moteur de recherche de qualité doit tenir compte des particularismes linguistiques nationaux, voire régionaux Une tentative de définition du spamdexing Google Base dévoilé ! Les concepts de la POO La programmation objet : qu’est-ce que c’est ? à quoi ça sert ? Gregory Olivier "MSN Search cherche à établir un véritable dialogue avec les webmasters et les référenceurs" Direct Answers from Encarta MSN Search utilise-t’il l’analyse au niveau des blocs ? Spyware : les méthodes pour s’en débarasser Michael James, de la société Mirago "Nous misons sur nos partenaires pour développer notre visibilité" La sémantique appliquée et les outils de recherche [2/6] Linguistique statistique et sémantique appliquée : outil de pertinence pour les moteurs, de KM et de référencement ANALYSE THEMATIQUE (4/4) par le Pr E. Garcia ANALYSE THEMATIQUE (3/4) par le Pr E. Garcia Applications des outils sémantiques au référencement et aux moteurs de recherche Sémantique appliquée : Liens et références bibliographiques ANALYSE THEMATIQUE (2/4) par le Pr E. Garcia ANALYSE THEMATIQUE (1/4) par le Pr E. Garcia CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [3] Mon premier programme en PHP (3e Partie) CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2] CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [1] Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin) Quelques pistes pour comprendre le nouvel algorithme de Google FOOXX, le moteur futé venu d’Allemagne Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ? Mooter, un moteur de recherche innovant venu d’Australie Les techniques évoluées d’indexation dans les moteurs de recherche (2e partie) Visibilité et stratégies de développement d’audience sur le Web Les techniques évoluées d’indexation dans les moteurs de recherche L’algorithme HITS et le projet CLEVER (deuxième partie) L’algorithme HITS et le projet CLEVER La structure du web est en forme de "noeud papillon" Webfountain d’IBM Vers un moteur de recherche sensible au contexte (1ère partie) Vers un moteur de recherche sensible au contexte (2ème partie) Vers un moteur de recherche sensible au contexte (3ème partie) Droit d’auteur et site web Droit d’auteur et site web (2e Partie) Droit des producteurs de bases de données (législation française) Tester correctement variables et valeurs en php Mon premier programme en PHP (2e Partie) Les nouveautés de la version 5 de PHP Les origines du PHP Mon premier programme en PHP Pourquoi choisir le PHP pour réaliser des pages dynamiques ? |
L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.1]
[3/6]L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.1]1 : Définition et principes14 octobre 2006, par CaribooAvec le "web sémantique", nous abordons une approche différente du problème de la détermination du "sens" des contenus web ou de leur thématique. Les autres méthodes décrites essaient de tirer l’information existante des pages telles qu’elles sont aujourd’hui, et en particulier du contenu textuel des pages. Les résultats obtenus sont de plus en plus intéressants, mais trouvent leurs limites pour certaines applications. La désambiguation est encore balbutiante par exemple, essentiellement parce que l’humain qui lit une phrase isolée dispose en réalité d’une grande quantité d’informations de contexte dont un programme ne disposera pas. Le "web sémantique" part donc d’un constat : les machines auront durablement de grandes difficultés à déterminer le sens d’une phrase ou la nature d’un contenu. L’une des solutions consiste donc à l’aider en ajoutant de l’information, sous une forme (tant qu’à faire) directement réutilisable par un logiciel. L’apport théorique du web sémantique dans la création d’outils de recherche bien plus performants et pertinents est indéniable. Pourtant, ce grand projet de Tim Berners Lee fait l’objet de vives polémiques, car certains estiment qu’il est en grande partie utopique. Mais certains aspects de la polémique démontrent surtout que le "sémantic web" est un projet mal connu et mal compris. Et la confusion générale avec les outils de linguistique statistique et surtout avec les balises HTML dites "sémantiques" ne facilite pas les choses...
Un projet de Tim Berners Lee et du W3CLe projet "semantic web" est né au sein du Consortium W3C à l’initiative de Tim Berners Lee.
Le concept de "web sémantique" est apparu dans un article fondateur de Tim Berners Lee publié en Mai 2001 (voir bibliographie). Cet article a suscité de nombreuses réactions curieuses, démontrant que beaucoup n’en ont pas compris le sens profond [1] Depuis, le consortium W3C travaille d’arrache pied au développement des normes et des définitions de standards du web sémantique (mais au rythme qui le caractérise, c’est à dire en gros le rythme d’avancement du dictionnaire de l’académie française). Il faut préciser, pour la vérité historique, que la plupart des "briques" qui constituent le web sémantique existent depuis plus longtemps, et n’ont pas été imaginées par Berners Lee. C’est vrai notamment pour RDF, les ontologies etc... 1. Le Web Sémantique : principes et applicationsL’idée de base est, on l’a déjà dit, d’ajouter de l’information dans les documents pour permettre aux machines de traiter le contenu de manière intelligente [2]. Mais dans le web sémantique, on ne va pas stocker n’importe quel type d’information, ni n’importe comment. L’idée la plus basique, pour indiquer que "rose" est une fleur, serait de tagger le nom rose avec une balise de type <fleur>. On crée ainsi des couples "contenu, catégorie", ou "contenu, nature", ou "contenu, propriété". Mais depuis fort longtemps (depuis que l’on essaie de construire des thésaurus en fait) on s’est aperçu qu’il existe de nombreux types de relations possibles entre deux éléments... La solution est donc de stocker un triplet d’informations (élément 1, élément 2, relation entre 1 et 2). Dans le web sémantique, ces triplets d’information sont appelés "définitions", et sont stockés à l’aide d’un dialecte du XML, appelé RDF (Resource Description Framework). Dans RDF, les termes utilisés pour élément 1, élément 2, relation entre 1 et 2 sont appelés respectivement sujet, objet, et prédicat.
Pour les connaisseurs, cela signifie que RDF sert en fait à décrire des graphes orientés étiquetés, ce qui signifie que toute la branche des mathématiques (théorie des graphes orientés) qui les étudie est directement utilisable pour le web sémantique.
Si l’on crée deux règles qui partagent un même élément, on crée un "noeud" : {rose,fleur,"appartient à la catégorie"}Le tout permet de créer des graphes complexes, qui décrivent de manière efficace des collections d’objets et les relations qui les unissent.
En fait, les "éléments" sont en réalité stockés sous forme d’URI (Uniform Resource Identifier, manière standard d’identifier une ressource physique ou abstraite, dont l’une des applications particulières sont les URL) Exemple de transcription en RDF d’une définition Prenons pour exemple la définition suivante : Cela se transpose en composantes RDF de la façon suivante : Sujet / Ressource: http://www.monsite.com/HugoUne fois que respecte le formalisme propre à RDF cela donne : <rdf>Le langage OWL et les ontologies Si RDF est déjà un dialecte du XML, il crée une description trop générique des graphes de relations dans un ensemble d’objets pour être utilisé simplement par un programme... C’est pourquoi le W3C a créé dans le projet du web sémantique le "langage" OWL, qui est en fait une extension spécialisée de RDF destinée à la création des ontologies nécessaires au fonctionnement du web sémantique. Le "vocabulaire" défini par OWL permet notamment d’introduire des relations logique de type inférence. Les briques nécessaires au fonctionnement du web sémantique En fait, on voit que le web sémantique s’appuie sur les normes et standards existants :
Auxquels s’ajoutent deux outils spécifiques :
Il existe deux autres outils spécifiques :
![]() Quelques applications grand public de RDF et des ontologies Il existe en fait déjà des applications concrètes des concepts du web sémantique, et notamment de RDF :
Philippe YONNET Prochain article : 2 : Les fausses amies, les balises sémantiques On confond souvent la notion de balises sémantiques avec le web sémantique. Cet article a pour objectif d’essayer de clarifier les choses. [1] Ce qui s’agissant d’un article sur le web sémantique, ne manque pas de piquant... Mais il semble que cette difficulté du grand public, même initié, à comprendre de quoi il s’agit vraiment poursuit cette initiative. On peut expliquer cela déjà par la tendance naturelle des promoteurs du W3C à l’emploi d’un jargon inintelligible, et à produire des documents qui ressemblent plus à des circulaires administratives qu’à des articles de vulagrisation. Mais le problème réside aussi dans la nature abstraite des concepts mis en oeuvre : le web sémantique, pour être déployé, demande que l’on manipule des abstractions sur d’autres abstractions. Ce qui, on le sait, n’est pas à la portée de tous. [2] A propos d’intelligence, la vision de Tim Berners Lee apporte quelque chose de nouveau quant à la notion d’intelligence artificielle : jusqu’ici ce que l’on appelait intelligence artificielle n’avait pas bougé depuis les années 70, et reposait sur un système central doté de sa propre base de données, qui constituait la source de l’intelligence du système. Le web sémantique créerait un système sans base de données propre, mais accédant à des documents "intelligibles", stockés quelque part sur le web, avec une logique totalement décentralisée, et constituant l’intelligence d’un système "global" au sens américain du terme, c’est à dire planétaire. Le web sémantique est aussi une vision pragmatique de l’IA, c’est à dire qu’on ne cherche plus à rendre une machine "intelligente", ce qui se révèle assez vain, mais qu’elle se comporte de manière jugée intelligente, et utile. |
|
||
|