|
Site Web : Pnambique Directeur du Pôle Experts de la société @position http://www.aposition.com Articles de l'auteur : La détection du Link Spam : un challenge pour les moteurs [3/4] La détection du Link Spam : un challenge pour les moteurs [2/4] La détection du Link Spam : un challenge pour les moteurs [Bibl.] La détection du Link Spam : un challenge pour les moteurs [1/4] Cuill veut surpasser Google grâce à l’analyse de données sémantiques 2007 : l’année des moteurs furtifs L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.4] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.3] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.2] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.1] Joachim Kreibich (Seekport) : pour nous, un moteur de recherche de qualité doit tenir compte des particularismes linguistiques nationaux, voire régionaux Une tentative de définition du spamdexing Google Base dévoilé ! Les concepts de la POO La programmation objet : qu’est-ce que c’est ? à quoi ça sert ? Gregory Olivier "MSN Search cherche à établir un véritable dialogue avec les webmasters et les référenceurs" Direct Answers from Encarta MSN Search utilise-t’il l’analyse au niveau des blocs ? Spyware : les méthodes pour s’en débarasser Michael James, de la société Mirago "Nous misons sur nos partenaires pour développer notre visibilité" La sémantique appliquée et les outils de recherche [2/6] Linguistique statistique et sémantique appliquée : outil de pertinence pour les moteurs, de KM et de référencement ANALYSE THEMATIQUE (4/4) par le Pr E. Garcia ANALYSE THEMATIQUE (3/4) par le Pr E. Garcia Applications des outils sémantiques au référencement et aux moteurs de recherche Sémantique appliquée : Liens et références bibliographiques ANALYSE THEMATIQUE (2/4) par le Pr E. Garcia ANALYSE THEMATIQUE (1/4) par le Pr E. Garcia CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [3] Mon premier programme en PHP (3e Partie) CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2] CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [1] Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin) Quelques pistes pour comprendre le nouvel algorithme de Google FOOXX, le moteur futé venu d’Allemagne Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ? Mooter, un moteur de recherche innovant venu d’Australie Les techniques évoluées d’indexation dans les moteurs de recherche (2e partie) Visibilité et stratégies de développement d’audience sur le Web Les techniques évoluées d’indexation dans les moteurs de recherche L’algorithme HITS et le projet CLEVER (deuxième partie) L’algorithme HITS et le projet CLEVER La structure du web est en forme de "noeud papillon" Webfountain d’IBM Vers un moteur de recherche sensible au contexte (1ère partie) Vers un moteur de recherche sensible au contexte (2ème partie) Vers un moteur de recherche sensible au contexte (3ème partie) Droit d’auteur et site web Droit d’auteur et site web (2e Partie) Droit des producteurs de bases de données (législation française) Tester correctement variables et valeurs en php Mon premier programme en PHP (2e Partie) Les nouveautés de la version 5 de PHP Les origines du PHP Mon premier programme en PHP Pourquoi choisir le PHP pour réaliser des pages dynamiques ? |
CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2]
Les principes des outils sémantiques utilisés par Google pour ses programmes de pubCIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2][2ème partie : Les principes de CIRCA]26 septembre 2004, par CaribooDans cette deuxième partie, nous allons détailler les principes de fonctionnement de la technologie CIRCA. La plupart des informations données ici sont tirées du "white paper" que la société Applied Semantics avait placé sur son site pour promouvoir sa technologie. [1] La plupart des méthodes utilisées n’ont rien de révolutionnaires : on les retrouve dans de nombreuses applications de linguistique, de traitement du langage, dans des versions parfois plus sophistiquées. Le vrai talent d’Applied Semantics est sans doute de tenir la "promesse" contenue dans son nom : savoir faire de la "sémantique appliquée" et introduire la sémantique dans les "business models". De nombreux termes des sciences du langage et en particulier de sémantique sont utilisés dans cet article. Pour ceux qui ne sont pas familiers avec ce jargon scientifique, la plupart des termes sont reliés à leur définition dans Wikipédia. N’hésitez pas à cliquer sur le lien pour en savoir plus... ARCHITECTURE DE L’ONTOLOGIE CIRCA [2]Le coeur de CIRCA est son ontologie. Une ontologie est un système structuré de concepts, qui décrit les relations entre ces concepts. Ces relations sont décrites dans un graphe, et peuvent être de nature sémantiques, ou des hiérarchies (logiques de composition ou d’héritage, au sens "programmation objet" du terme). Les ontologies permettent de "classer" intelligemment et efficacement les éléments, et notamment les éléments du langage. L’ontologie CIRCA travaille à partir de triplets de trois composants [3] :
Chaque syntagme est associé à un ou plusieurs "sens". Dans l’exemple ci-dessous, on voit mieux cette logique en triplet à l’oeuvre, et la manière dont l’ontologie CIRCA "enregistre" l’information sur un syntagme.
Le syntagme "porte un enfant" est composé de trois "formes" : "porte" "un" et "enfant". Si l’on prend la forme "porte" isolément, il est impossible de savoir s’il s’agit d’une porte, ou d’une forme conjuguée du verbe porter. Il est clair que les deux mots n’ont pas le même sens... Si l’on ne bâtit une ontologie qu’avec des formes isolées, les cas "ambigus" sont trop nombreux, et il est impossible de leur associer un sens. D’où l’intérêt de stocker des syntagmes (des groupes de formes), qui eux peuvent être plus facilement associés avec un ou plusieurs sens [5]. Ici d’ailleurs, le syntagme peut être relié à deux sens :
Cette relation est stockée dans l’ontologie de deux manières différentes :
Les relations dans l’ontologie CIRCA utilise onze type de relations différentes entre les concepts [6]
Chaque relation stockée dans l’ontologie se voit complétée par une "note" indiquant la "force" de la relation. Par exemple "chien" est une catégorie d’ "animal de compagnie" ainsi qu’une espèce. Mais le lien est plus fort avec "animal de compagnie" qu’avec espèce. Mais cette "note" n’est pas la seule information quantitative stockée dans l’ontologie. Plusieurs données statistiques sont également incluses [7] :
Par ailleurs, des données linguistiques sont également incluses :
Comment bâtir et enrichir l’ontologie Si l’on en croit Applied Semantics, leur ontologie a été bâtie à partir de Wordnet, enrichie par le travail "humain" de plusieurs linguistes, aidés par des outils permettant d’enrichir automatiquement le système. Voici comment Gil Elbaz, le PDG de la société décrivait la technologie CIRCA dans EContentMag en 2002 :
La technique fondamentale étudie la co-occurence des "sens" pour détecter de nouvelles relations possibles qui peuvent permettre de choisir entre deux sens pour le même syntagme. Si l’on prend le mot Java, il peut signifier une danse, une ile d’Indonésie ou un langage de programmation. S’agissant du langage Java, il est sans doute déjà associé, dans l’ontologie, avec "classes" et "Javascript" et "programme" ... Mais il n’est pas forcément associé avec le mot "clavier". Pourtant, la co-occurrence entre "clavier" et "Java=langage" sera plus forte qu’avec l’île et la danse. Conclusion : l’étude des co-occurences permet de compléter les informations contenues dans l’ontologie, pour autoriser des desambiguations futures... Ces informations sont issues de l’analyse du "contexte" d’utilisation des syntagmes. Plus le système absorbe de textes différentes, plus il "apprend" à reconnaître le sens de ces syntagmes... UTILISATION DE L’ONTOLOGIE POUR ANALYSER UN TEXTELe plus intéressant à étudier, c’est de voir comment CIRCA parvient à analyser un texte et lui attribuer un "sens". Le processus se déroule en trois étapes :
Pré-processing La phase de prétraitement consiste à faire subir au texte quatre traitements successifs :
Le "tokenizer" Le traitement consiste à découper le texte en distinguant les "formes", (les mots) contenus dans le texte, et à reconnaître les phrases et à les baliser. Le "tokenizer" exploite également les informations contenues dans les balises html. Il identifie aussi les "formes" particulières, comme les nombres, et la ponctuation. Certaines données sont conservées comme la position relative d’un mot dans le texte, tandis que d’autres sont enlevées, comme les balises HTML inutiles. Attribuer une catégorie syntaxique Le système cherche ensuite à attribuer une catégorie syntaxique à chaque forme [8]. Ce traitement élimine une source possible d’ambiguité ("porte" est-il un substantif, ou une forme verbale conjuguée ?). Reconnaître les entités nommées Il s’agit ici, à l’aide d’expressions régulières et d’autres règles, d’identifier des séquences particulières : adresses email, url, numéros de téléphone, et dates. Des règles heuristiques permettent de reconnaître d’autres types d’ "entités nommées" : noms de personnes, de lieux, de sociétés. Isoler les syntagmes La dernière phase de prétraitement consiste à isoler les syntagmes et à les relier au(x) syntagme(s) correspondant dans l’ontologie. Désambiguation du sens des mots Le travail n’est pas terminé, car dans bien des cas, plusieurs hypothèses subsistent quand au sens à attribuer à un syntagme, et même, plusieurs découpages en syntagmes peuvent coexister. Par exemple, le syntagme "casser sa pipe" peut être pris comme une expression synonyme de "mourir". Mais si "pépé a cassé sa pipe en écume", alors il vaut mieux traiter la séquence en trois syntagmes différents. C’est l’étude du contexte qui permet d’évaluer quel est la solution "probablement juste". Cette étude du contexte consiste notamment en l’étude des co-occurences entre formes et syntaxes dans le texte. [9] Donner du sens La phase précédente a permis de déterminer un "sens" pour chaque terme et chaque syntagme pris isolément... De nombreux outils linguistiques informatisés s’arrêtent là. Mais CIRCA a pour objectif de déterminer de quoi parle un texte donné, afin de pouvoir par exemple le classer dans une catégorie ou une autre... La tâche est délicate : il s’agit d’identifier dans un texte le ou les concepts les plus importants. L’astuce consiste à ne plus mesurer la coocurrence des syntagmes, mais celle des "sens", dans le texte, pour déterminer quels sont les "sens probables". Ensuite, plus un sens est fréquent, plus il y’a de chances qu’ils soient importants... A ce stade, la "structure" du texte produit des effets de bords qui parasitent les résultats. Il est fréquent qu’un texte avec un sens précis soit accompagné de "sections" sans rapport avec ce sens... Cela arrive fréquemment sur une page de brèves dans un magazine : si on prend la "page" comme un texte unique, en déterminer le sens va être difficile. Le problème est le même avec une page HTML : il est fréquent qu’un "article" voisine sur la page avec des textes et des éléments de navigation (menus) qui n’ont rien à voir avec le texte principal de la page. "Attribuer un sens" passe donc par l’identification de ces régions différentes, et par la recherche d’un sens pour chaque région. Certaines régions différentes seront reconnues, selon des règles heuristiques, comme non pertinentes, et ignorées. A la fin du processus, le document se voit attribuer une liste ordonnée des sens les plus probables pour son contenu... Ce qui autorise bien des applications pratiques ! CIRCA et Adsense L’une des applications de CIRCA est bien sûr de pouvoir déterminer le "sens" d’une page web pour l’associer automatiquement à une liste de mots clés. Ce qui permet d’afficher des publicités ciblées sur ces pages : c’est le coeur du fonctionnement du système Adsense de Google. Mais le système est complexe et mérite un nouvel article à lui tout seul... Philippe YONNET BIBLIOGRAPHIE ET LIENS UTILEShttp://www.appliedsemantics.com/ Le "white paper" d’Applied Semantics sur CIRCA - sur le site google-watch.org Présentation Powerpoint de la technologie CIRCA - document d’Applied Semantics Présentation de CIRCA dans EContentMag
Présentation du produit "Auto-Categorizer dans Infotoday
[2] CIRCA est un acronyme qui signifie : Conceptual Information Retrieval and Communication Architecture (architecture d’extraction d’information conceptuelle et de communication [3] subtilement différents de ceux du web sémantique, notamment dans leur hiérarchie, on se méfiera donc des analogies [4] on notera que les termes utilisés par Applied Semantics sont d’une imprécision scientifique étonnante. Il est vrai que les sciences de type sémantique, sémiologie etc... sont des traditions françaises, et qu’il existe donc une terminologie précise en français, mais pas en anglais. Mais les termes anglo-saxons utilisés ici ne sont pas non plus les termes consacrés utilisés dans la littérature anglo-saxonne sur le sujet. [5] Tout l’art de créer une ontologie consiste d’ailleurs à choisir ces fameux syntagmes : un syntagme peut regrouper des syntagmes plus petits. Si l’on ne prend que les plus petits syntagmes inférieurs, l’ontologie est de taille minimale, mais restera faiblement pertinente. Si l’on prend les syntagmes supérieurs, la taille de l’ontologie et sa complexité explosent de manière exponentielle, par contre, sa pertinence peut devenir bien meilleure. [6] On peut en définir d’autres, mais souvent les ontologies utilisent moins de types de relations. L’ontologie CIRCA est particulièrement riche de ce point de vue. Elle reprend en fait la classification de Wordnet [7] C’est l’ajout de ces statistiques et poids qui représente une avancée de CIRCA par rapport à Wordnet [8] L’outil en oeuvre ici est un transducteur d’états finis, qui s’appuie sur une série de règles à la manière d’un système expert : le système calcule, en fonction des statistiques contenues dans l’ontologie, la probabilité que la forme appartienne à telle ou telle catégorie, avant que des règles déterminent le choix. Un transducteur à états finis est un dispositif algorithmique qui sait "reconnaître" des séquences de symboles dans un texte, leur attribuer un état, changer dynamiquement cet état, et produire un texte modifié en sortie. Les fonctions de recherche/remplacement des traitements de texte sont des "transducteurs à états finis" simples. [9] la mesure de la co-occurrence des mots a des applications directes en référencement, et sera l’objet d’un article à venir. Il s’agit de mesurer la probabilité qu’un couple ou un n-uplet de mots apparaissent ensemble dans un texte. Pour un couple de mots la formule est simple : soit n1 et n2 le nombre de fois où les mots m1 et m2 apparaissent dans un corpus de textes donné, et n12 le nombre de fois où ils apparaissent ensemble dans un même texte. La mesure de la co-occurence est donnée par c=n12/(n1 + n2 - n12). Certains résultats de l’étude des co-occurences en sémantique sont intuitifs, d’autres pas du tout, comme souvent avec les outils basés sur les probabilités |
|
|
||
|