ANALYSE THEMATIQUE (1/4) par le Pr E. Garcia

Auteur :E. Garcia
Mi Islita.com
| Last Update : 10/06/04
Traduit de l’anglais par Cariboo, avec autorisation de l’auteur

Première partie
Deuxième partie
Troisième partie
Quatrième partie

RESUME

Cette expérience présente une procédure permettant de découvrir sur internet les termes qui sont associés à une thématique. Les termes sont identifiés en s’appuyant sur des calculs d’occurrence et de co-occurrence. Il a été démontré que l’analyse thématique est un outil efficace pour permettre aux utilisateurs d’améliorer la sémantique de sites thématiques et de documents parlant d’un concept particulier. Nous présenterons également des applications spécifiques au stratégies de référencement et aux outils de recherche.

1. INTRODUCTION

Un site web monothématique est un site consacré à un seul concept principal. Chaque page du site est consacrée à une thématique donnée, associée au concept principal. Ces pages évoquent des thèmes spécifiques, ou pointent vers des sujets spécifiques.
L’information est souvent organisée selon la séquence suivante :

Thématique > Thèmes > Sujets,…

Des sites plus importants abordent des thematiques mutiples, chacune dotée d’une structure hiérarchique correspondante. En générale, les sites thématiques comportent une structure hiérarchique qui conduit l’utilisateur a rencontrer des documents de plus en plus ciblés au fur et à mesure qu’il descend dans les niveaux les plus profonds du site. La structure hiérarchique d’un site consacré à une seule thématique, peu de thèmes et plusieurs sujets spécifiques peut se représenter à l’aide d’une structure de données reprenant l’organisation générale des syntagmes.

Sommet > élargi > affiné…

le sommet sont ces syntagmes, élargi sont les syntagmes liés à un thème et affiné sont des syntagmes liés à un sujet donné, et tous sont supposés appartenir à la même thématique. Les syntagmes thématiques sont donc des syntagmes-clés associés à un document, ou une architecture de documents. Par exemple, si un site est consacré à la thématique de la gastronomie mexicaine, les pages consacrées à un thème donné seraientrecettes mexicaines, cuisine mexicaine, et ingredients mexicains, etc, tandis que les pages consacrées à un sujet plus spécifique (les articles) parleraient de choses comme les tortillas et les burritos. Une section de ce site pourrait être représentée par la Figure 1 et par la séquence :

gastronomie mexicaine > recettes mexicaines > tortillas, burritos…


Figure 1 Structure d’une section d’un site thématique.

Le schéma ci-dessus n’exclut pas la possibilité qu’un sujet donné puisse être atteint par différents thèmes ou qu’une page consacrée à un sujet donné puisse conduire à des pages encore plus pointues sur un sujet. Il est évident qu’une structure thématique restreint l’utilisation des mots au sein des pages, puisque les mots possibles doivent correspondre à la thématique localement et globalement ; ce qui veut dire que les syntagmes afinés et élargis doivent rester dans la thématique sans rendre cette thématique floue. Aussi, la détermination et la sélection des syntagmes thématiques est un problème non trivial.

Dans cette expérience, nous présentons une procédure s’appuyant sur le Web pour repérer en ligne les syntagmes thématiques. Notre approche utilise des calculs d’occurrence et de co-occurrence de syntagmes et est inspirée par les procédures de repérage utilisées dans des techniques éprouvées d’extraction d’informations.

2. RAPPEL DES BASES DE CONNAISSANCES REQUISES

Il y’a plusieurs techniques d’extraction d’information pour repérer des syntagmes (1 – 9). Néanmoins, toutes ces techniques ne sont pas forcément accessibles aux internautes, ou appropriées au repérage en ligne de syntagmes. Certaines de ces techniques sont performantes dans les conditions contrôlées d’un laboratoire sur les outils de recherche, mais pas sur le Web, qui est un environnement commercial avec toutes sortes d’intérêts imbriqués et d’alliances de contenu.

2.1 Retour de pertinence, regroupement de syntagmes, et retour local

Le retour de pertinence – développé dans les années 70 et 80 – est difficile à mettre en place par des utilisateurs moyens. Dans le « retour de pertinence », l’internaute soumet une requête et examine les N premiers documents classés (en général les 10 à 30 premiers), indique ceux qu’il estime pertinents et non-pertinents, et choisit ceux considérés comme importants en se basant sur les occurrences de syntagmes (fréquences d’apparition) dans les documents pertinents et dans les documents non pertinents.(1). Les syntagmes identifiés sont ensuite ajoutés à la requête et le cycle est relancé. Baeza-Yates and Ribeiro-Neto (5) donnent la recommandation suivante : « toute expérimentation impliquant des statégies de retour de pertinence doit toujours évaluer les taux de précision et de rappel [1] » pour la collection résiduelle. » Ainsi, la mise en oeuvre de cette technique est une formidable tâche pour l’internaute lambda, qui, à chaque cycle, doit décider quels documents sont censés être pertinents ou non pertinents.

Le regroupement de syntagmes ne peut pas non plus être employé. C’est une technique introduite par Sparck Jones dans les années 60 / 70. Les syntagmes sont repérés et regroupés dans des catégories en fonction de leurs co-occurences, et les catégories sont utilisées pour effectuer une expansion de requête. (2 – 4). Néanmoins, cette approche ne peut pas faire la distinction entre des termes ambigus ou des termes à plusieurs sens. Aussi, essayer d’utiliser un simple regroupement de termes pour une expansion de requêtes ou une procédure de repérage en ligne peut conduire à des résultats ambigus.

Il y’a une autre technique qui ressemble au retour de pertinence : le retour local. Dans cette technique, les N premiers documents classés sont considérés comme pertinents. Un syntagme est repéré, et ensuite ajouté à la requête en se basant sur l’occurrence du syntagme dans les premiers documents classés. Ce critère ne permet pas d’affiner une requête si la plupart des N premiers documents classés sont en fait non-pertinents. (3, 4).

2.2 Analyse du Contexte Local

J. Xu and W. B. Croft (4) ont développé une excellente technique d’expansion de requête appelée « local context analysis » (LCA) (Analyse du Contexte Local). La LCA s’appuie sur l’utilisation des concepts d’expansion. Baeza-Yates and Ribeiro-Neto préfèrent quant à eux utiliser l’expressionconcepts documentaires (5). Les concepts d’expansion ou les concepts documentaires sont des syntagmes constitués de noms ; C’est à dire, des groupes de noms composés de un, deux ou trois noms accolés. Par exemple, les syntagmesrecette de cuisineetassurance automobile de Californiesont des concepts d’expansion, alors que hôtel pas cher et vacances excitantes au soleil n’en sont pas.

La méthode LCA repère les concepts d’expansion comme suit. Au lieu d’examiner des documents entiers, les concepts sont extraits de passages d’une longueur fixe de L ; normalement à partir d’une fenêtre d’une longueur fixée à 300 mots. Les concepts sont classés en fonction de leur co-occurrence avec les termes de la requête dans les N premiers documents classés. Les concepst classés en premier sont ensuite utilisés pour l’expansion de la requête. Le modèle applique de facto la théorie de la co-occurrence et un traitement tf*idf original [2] à un sous ensemble qui est une partie de l’ensemble global (4, 5). Cette combinaison de techniques globales et locales produisent une expansion de requête plus efficace. Les noms sont utilisés parce que la recherche suggère qu’ils sont plus riches en information et qu’ils apportent plus de possibilités d’expansion de requêtes que d’autres types de termes. (6).

Xu and Croft ont découvert que, plus le nombre de co-occurrences était élevé, moins il était probable qu’un concept d’expansion apparaisse correspondre à la requête par le simple effet du hasard. Ils ont aussi étudié l’effet de L et de N, et ont découvert que la méthode LCA est moins sensible au nombre de passages/documents utilisé que le retour de pertinence local. Une des limites de la méthode LCA est que son application s’appuie sur une segmentation de documents en éléments de longueur déterminée, généralement des passages d’une longueur de 300 mots. Ceci afin de contourner les difficultés posées par la normalisation des longueurs, et pour améliorer les perfomances des extractions sur des documents de longueurs différentes.

2.3 Segmentation des documents et des passages

Pourtant, selon un récent article du « Microsoft research group (7) », le principal défaut des techniques de segmentation basées sur une longueur fixe, c’est qu’aucune information sémantique n’est prise en compte dans le processus de segmentation. Des coupes franches tous les L mots, et sans marges de transition peut avoir un effet sur le flux et la présentation des informations sémantiques. C’est pourquoi certains préfèrent utiliser des techniques de découpage en passages discursives, ou des techniques de segmentation sémantiques. La segmentation discursive en passages prend en compte la ponctuation du document. La segmentation sémantique en passages consiste à découper un document en thèmes et sous-thèmes selon sa structure sémantique et son flux.(7, 8). Néanmoins, ces techniques doivent composer avec le problème de la normalisation de longueur.

Avant d’utiliser toute technique d’expansion de requête ou de segmentation pour la recherche de syntagmes, il faut prendre garde à ce qui suit. D’abord, l’expansion de requête requiert l’utilisation de requêtes de grande longueur, alors que sur le Web nous utilisons plus volontiers des requêtes courtes, comportant typiquement deux ou trois mots-clés. Ensuite, le but d’une expansion de requête est de trouver des termes pour décrire des documents pertinents, et non de trouver des termes pour affiner des structures thématiques. Pourtant, le fait que les termes trouvés grace à une expansion de requête peuvent renforcer la structure hiérarchique d’un site thématique, si la requête initiale représente un thème ou une partie d’un thème, constitue une conjecture plausible. Pour illustrer ceci, comparez la figure 1 avec l’expansion de requête suivante :

Requête en entrée : mexican
Requête après expansion 1 : mexican food
Requête après expansion 2 : mexican food recipes
Requête après expansion 3 : mexican food recipes tortillas
Requête en sortie : mexican food recipes tortillas burritos

Si l’on considère la segmentation en passages, il faut remarquer que les documents Web contiennent souvent différents types de styles discursifs, de flux d’idées, de passages de longueurs différentes, et des structures DOM variées. Contrairement aux systèmes d’extractions d’information que l’on teste en laboratoire, le Web est très influencé par les intérêts commerciaux et toutes sortes de partenariats conduisant à agréger des contenus. Le contenu Web est fréquemment mis à jour, lié à d’autres contenus, ou même manipulé dans le seul but de positionner les documents en tête des résultats dans les moteurs de recherche. Aussi, les termes extraits des N premiers documents Web classés, ou des premiers passages d’un document, ne contiennent pas forcément une information plus précise que les termes extraits des N premiers titres.

2.4 Les structures de données de type thesaurus

French, Olsen and Martin ont proposé une approche intéressante utilisant un dictionnaire pour trouver et suggérer des termes aux utilisateurs d’un outil de recherche. (9). Leur modèle s’appuie sur une structure de type thesaurus qui relie conceptuellement les termes avec les relations appropriées en utilisant l’organisation générale des syntagmes

Sommet > Elargi > Affiné > Relié (Arbitraire)

Bien qu’elle soit appliquée à des recherches, cette structure de données ressemble à la structure hiérarchique que l’on trouve dans les sites thématiques. Selon leur modèle, le Sommet est constitué des termes situés au sommet de la hiérarchie. Ce sont les termes au sens le plus étendu contenant entièrement un concept. Les Elargis sont les termes situés immédiatement avant dans la hiérarchie. Ils sont suivis par des termes affinés. Les Affinés sont des termes spécifiques et sont suivis par des termes reliés. Les Reliés sont des termes arbitraires dans la structure du thesaurus, et sont utilisés pour améliorer la navigation. Par exemple, une recherche sur « réchauffement planétaire » pourra faire passer les utilisateurs de l’outil de recherche par les étapes suivantes :

réchauffement plantétaire > pollution atmosphérique > qualité de l’air > dioxyde de soufre.

Dans l’idéal, les internautes apprécieraient d’être guidés par des structures de données bien définies pour chaque terme sommet (c’est à dire pour chaque thème). Mais les associations de mots sur le web ne ressemblent pas à celles resultant de définitions de dictionnaire ou des structures de données en thesaurus. Ces associations de mots proviennent du langage commun, des régionalismes, des stratégies marketing, ou de particularismes linguistiques. C’est pourquoi essayer de guider des internautes lambda en utilisant des structures de données en thésaurus ou en essayant d’extraire des structures hiérarchiques bien définies à partir de documents émanant du Web est un challenge formidable.

2.5 Listes de mots-clés

Une alternative au retour de pertinence, à l’expansion de requête, à la segmentation, ou aux structures de données s’appuyant sur un thesaurus, pourrait être l’utilisation de listes de mots clés présélectionnés. Ces listes de mots clés existent sous la forme de services, gratuits ou payants, proposés par les moteurs de recherche et les fournisseurs de liens sponsorisés. Les termes sont en général qualifiés par un critère de mesure donnée (popularité, mots-clés les plus fréquemment recherchés, mots-clés les plus fréquemment cliqués, logs des recherches effectuée ou autres critères similaires) (10 – 17). Ces listes, largement utilisées, sont des outils excellents de découverte de termes et de construction de thèmes. Quoi qu’il en soit, avant d’utiliser ces listes, ceux qui effectuent des recherches sur le Net doivent garder à l’esprit que les termes qui ont été présélectionnés par ces critères de mesures ne sont pas forcément liés au sujet ni sélectionnés pour le thème recherché.

Dans cette expérience, nous présentons une procédure pour trouver sur le web les syntagmes liés à un sujet. Nous appelons notre procédure analyse thématique. Nous allons aussi nous rechercher si des structures de données bien définies peuvent être extraites de recherches sur le net. La suite de cet article est organisée de la manière suivante : La troisième partie explique les conditions expérimentales, l’échantillonnage, et le logiciel d’acquisition des données. La 4e partie décrit les résultats du test. La section 5 présente les applications possibles et les limites, les enseignements de l’expérience, et suggère de futurs travaux. La 6e partie résume l’article et en tire les conclusions.

[ à suivre …]

Deuxième partie


[1] NdT : la méthode « recall/precision » est une méthode statistique très utilisée dans les outils de recherche. D’origine US, l’expression est traduite de manière très diverse dans les articles francophones. Le taux de rappel représente la proportion de documents pertinents retrouvés par rapport à l’ensemble des documents pertinents de la base documentaire. Définit le taux de silence documentaire. A l’inverse le taux de précision représente la proportion de documents pertinents par rapport à l’ensemble des documents récupérés. Définit le taux de bruit documentaire

[2] NdT la méthode tf x idf est une invention de Salton : Term Frequency x Inverse Document Frequency