ANALYSE THEMATIQUE (4/4) par le Pr E. Garcia

5. PERSPECTIVES

5.1 Applications

Dans cette partie, nous allons introduire le concept des termes optimaux et des distances entre les termes. Puis nous allons aborder plusieurs applications possibles pour notre outil d’analyse thématique. Pour terminer, nous allons examiner les limites de notre procédure, et aborder les travaux que l’on peut imaginer pour le futur.

5.2 Termes Optimaux

Il y’a de nombreux outils qui peuvent procurer des résultats s’appuyant sur le comportement des utilisateurs des outils de recherche, plus ou moins en relation avec les progammes publicitaires ou s’appuyant sur les les logs de recherches (c’est à dire, l’outil de suggestion de mots clés de Google, celui d’Overture, Wordtracker, etc…). Mais ces outils ne fournissent aucune donnée concernant les occurences de termes ou leur co-occurrence. Par exemple, l’outil de suggestion de mots clés de Google n’indique pas aux utilisateurs :

  1. quels termes isolés sont utilisés le plus dans les requêtes les plus tapées….
  2. quels termes ciblés par les utilisateurs de moteurs sont aussi clairement positionnés dans les N premières pages classées dans les résultats.

Le premier point peut être résolu en important les résultats obtenus avec l’outil de suggestion de mots clés dans notre outil et en triant les résultats en fonction des valeurs de Pi. Nous donnons un exemple d’utilisation dans le Tableau 16 avec les requêtes madonna et paris hilton. Le tableau montre les résultats donnés comme Mots clés plus spécifiques par l’outil de suggestion de mots clés. Selon Google, il s’agit des requêtes les plus fréquentes contenant les termes madonna et paris hilton. Quels termes sont les plus utilisés dans ces requêtes fréquentes ? Notre outil révèle que ces termes sont lyrics et nicky, respectivement.

Occupons nous maintenant du deuxième point. Les termes qui sont à la fois fréquemment cherchés et fréquemment trouvés dans les N premiers résultats sont des termes pertinents à la fois pour les internautes à la recherche d’information et les algorithmes de classement. Ces termes ont tendance à apparaître soit en tête ou presque des listes de requêtes les plus populaires et des classements en fonction des Pi. Alors que des termes peuvent apparaître dans les deux classements, peu sont placés en tête ou presque des deux classements. Beaucoup de ces termes sont également caractérisés par un c-index élevé, et doivent donner de bonnes performances en termes de retour sur investissement. Nous appelons ces termes termes optimaux. Notre procédure et notre logiciel identifient directement les termes optimaux potentiels.

Le Tableau 16 indique que les termes lyrics et nicky sont utilisés le plus en combinaison avec les requêtes madonna et paris hilton. Est-ce que ces termes sont également les plus en co-occurence dans les 30 premiers titres ? Le Tableau 17 révèle que c’est le cas pour lyrics mais pas pour nicky. Ainsi, lyrics est un terme optimal potentiel pour madonna. Une comparaison entre les tableaux laisse penser que le terme optimal pour paris hilton n’est pas nicky mais pictures, qui apparait prêt de la tête des deux listes de Pi.

5.3 Applications spécifiques

5.3.1 Bases de brevets

En plus du Web marketing, notre système peut être utilisé pour découvrir des termes à partir de n’importe quel outil de recherche qui renvoie des titres… Le Bureau des Marques Déposées et des Brevets des Etats Unies (USPTO) propose ce genre d’outil de recherche. Mais l’analyse thématique sur le système USPTO se révèle difficile car les titres des brevets sont souvent descriptifs. Des termes comme method, system, apparatus, data, process, et les termes dérivés sont fréquemment présents dans les titres. Aussi, ce sont ces termes descriptifs qui apparaissent en général en tête des listes d’occurrence pour de nombreuses recherches sur les brevets. Dans toutes les applications pratiques, ces termes n’ont aucun pouvoir discriminant et peuvent donc être considérés comme des « mots vides ».

Le Tableau 18 présente une partie des résultats obtenus lors de requêtes sur les titres de brevets de 1976 à aujourd’hui dans la base USPTO. La requête utilisée était network management. Seuls les trente premiers titres contenus dans les pages de résultats ont été étudiés. Nous avons réalisé trois types de recherches. D’abord, une recherche rapide a été effectuée en entrant les deux termes (k1=network et k2=management) dans des champs de recherche séparés. Dans l’outil USPTO cela revient à effectuer une requête de type FINDALL (AND). Deuxièmement, une recherche rapide a été effectuée en entrant k1 et k2 dans un champ unique. Dans l’outil, cela revient à effectuer une requête de type EXACT (une suite de mots clés entourée de guillements). Pour terminer, nous avons effectué une recherche en utilisant la commande USPTO ttl/(k1 AND (k2)). Les termes « descriptifs » apparaissent en tête des résultats. Notre expérience avec ces requêtes et des requêtes similaires nous fait dire que les termes recherchés et les termes appartenant à la thématique se trouvent en tête des listes de co-occurrence quand la recherche est menée avec la commande ttl/(k1 AND (k2)) command. Cela s’explique par le fait que cela restreint la recherche aux titres de brevets contenant k1 and k2.

5.3.2 Bases de connaissances informatiques

L’analyse thématique peut être appliquée à d’autres systèmes qui retournent des titres comme les bases de connaissances juridiques, de jurisprudence, les bases d’informations financières, les bibliothèques en ligne, les bases de publications (comme Citeseer, Chemical Abstracts, Dissertation Abstracts, etc), les fils d’actualités et toutes les bases similaires.

Notre système peut également être incorporé dans n’importe quel environnement de sécurité à adaptation rapide dans lequel la recherche d’éléments type, la détection de profils d’information, et le catalogage rapide est nécessaire. L’analyse thématique peut dans ce cas être utilisée comme suit.

  1. Des requêtes sont envoyées à un système en utilisant des termes de profilage ou des termes liés à un thème, et des distributions d’occurence.
  2. Ensuite, on étudie les co-occurrences normées de termes plus vagues.
  3. Les termes qui dépassent un seuil donné de c-index sont ensuite recherchés dans le système.
  4. De nouvelles valeurs de Pi sont obtenues et le cycle est répété.

L’objectif est d’atteindre une organisation de structures de données fortement connectées. Dans la section qui suit, nous proposons une méthode destinée à visualiser de telles structures.

5.4 Applications dérivées

5.4.1 Visualisation des distances entre les termes

Les co-occurrences normées peuvent avoir des applications dans le domaine de la visualisation des structures de données. Par exemples, les c-index peuvent être utilisés pour produire une représentation visuelle identique aux arborescences obtenues avec le logiciel PDQ_MED d’InPharmix(19). PDQ_MED fournit une représentation graphique dans laquelle l’inverse de la fréquence des co-occurences est représentée par des liens entre les termes. En partant de ce concept pour l’adapter, la transformation suivante pourrait être employée pour un couple de termes :

d = log (1/c-index)

où d est la distance entre les termes et le c-index n’est pas exprimé en ppm mais comme une fraction. Ce qui donne,

d = log ((n1 + n2 – n12)/n12)

Un exemple de diagramme figure ci dessous (Figure 6)

Term Distances

Figure 6. Distances entre les termes pour un site thématique à propos de mexican food. Les distances ne sont pas à l’échelle et sont indiquées dans des unités arbitraires.

Le diagramme montre quels sont les termes fortement et faiblement connecyés. Les termes fortement connectés sont séparés par des distances plus courtes. Le cas extrême c12-index = 1 signifie que n1 = n2 = n12 et dans un tel cas d = 0. Remarquons que food et recipes sont des termes plus étendus pour cette thématique et que tortillas et burritos sont des termes plus précis pour cette thématique. Et Les deux types de termes sont fortement connectés dans cette structure hiérarchique.

5.4.2 Suggestion et désambiguation

Notre analyse thématique a des applications possibles pour la désambiguation des requêtes. Prenons une requête simple comme madonna. Le fait que ce terme soit tapé ne permet pas à un outil de recherche de savoir si l’utilisateur recherche le Madonna College, le Madonna Hospital ou la chanteuse Madonna, à moins que l’on ne fournisse au système des termes complémentaires associés à cette thématique.

Une équipe de recherche d’IBM a étudié le problème de la désambiguation. (20). Selon cette équipe de chercheurs, « …la désambiguation peut être obtenue en s’appuyant sur la présence ou l’absence de termes additionnels qui apparaissent dans le contexte d’un sujet donné. Le présupposé de base est ici que l’utilisateur est intéressé par un domaine en particulier, qui peut être identifié par un vocabulaire spécifique de termes caractéristiques de cette thématique ou au contraire hors sujet..  » L’approche d’IBM demande une bonne compréhesion de la théorie tf*idf par l’utilisateur.

Notre approche est très différente, elle n’est pas basée sur tf*idf, et est orientée vers l’utilisateur final. Notre système identifie les termes caractéristiques d’une thématique, qui peuvent ensuite être ajouté à la reqûete initiale. Ainsi, une recherche sur madonna lyrics devient une recherche sur Madonna the singer.

L’analyse thématique peut aussi être utilisée en tant que outil de suggestion de requête dans le contexte d’un outil de recherche. Si l’on prend l’exemple d’un internaute cherchant les réponses à une requête X , il verra alors apparaître dans les pages de résultats le message « Un utilisateur cherchant X recherche aussi Y1, Y2, Y3,…, », où Y1, Y2, Y3,… sont des termes déterminés à partir de X et affichés dans l’ordre des valeurs de c-index et de Pi .

5.5 Limites

Nous allons parler maintenant des limites de nos expériences et des travaux qui restent à réaliser. Nous avons limité notre expérience à Google et à des termes dont les valeurs de co-occurence dépassaient le seuil des 25 ppm. Or il n’y a aucun argument théorique qui justifie que l’on élimine des termes en se basant sur quelque seuil de co-occurence que ce soit. Les termes sont, ou ne sont pas, en co-occurence, tout simplement.

Nous avons aussi restreint notre analyse aux titres visibles. Dans le cadre de travaux futurs, nous envisageons de réaliser des expériences en utilisant différents moteurs de recherche avec différents seuils de c-index. Nous envisageons aussi de réaliser des analyses thématiques en utilisant la commande allintitle de Google. Même si cela devrait améliorer nos résultats (les recherches sont limitées aux titres contenant les termes recherchés) cette approche ne prend pas en compte le comportement de l’utilisateur moyen, puisque la plupart des internautes utilisent les modes de recherche offerts par défaut.

Enfin, mais ce n’est pas le moindre de nos projets, nous envisageons de réaliser une analyse thématique avec l’ensemble des informations affichées dans les pages de résultats. Dans ce cas, les passages peuvent être définis comme les « entrées » visibles (les titres et les extraits des documents) affichés par l’outil de recherche interrogé.

6. CONCLUSION

Nous avons présenté un système client permettant d’isoler les termes caractéristiques d’une thématique donnée grâce aux données obtenues sur le Web. Pour une requête donnée, il est possible d’extraire des structure de données d’une précision acceptable pour des documents à usage commercial. L’analyse thématique révèle des informations importantes sur l’occurence et la co-occurence normée de termes extraits des titres des N premiers résultats. Dans la plupart des cas, cette information est une aide précieuse pour séparer les termes hors sujets des termes caractéristiques d’une thématique et pour développer des sites thématiques et des documents Web.

Notre protocole expérimental permet aux utilisateurs d’identifier les termes situés « en tête », les termes plus étendus, plus précis, et les termes optimaux. Ces termes peuvent être utilisés pour améliorer la pertinence sémantique des thèmes, le ciblage de documents, et les campagnes marketing basées sur l’achat de mots clés. L’analyse thématique fonctionne parce que l’information utilisée est extraite d’un sous ensemble de résultats dont la pertinence a été prédéterminée par le système interrogé.

7. REMERCIEMENTS

Nous aimerions remercier les sociétés et les personnes suivantes pour leur contribution à cette expérience :

Derek Chew, Organic-Rankings.com
Ignacio “Nacho” Hernandez Jr., MexGrocer.com
Barry Schwartz, RustyBrick.com
Frank Watson, Smart-Keywords.com
Joseph Morin, BoostRanking.com
Alan Perkins, Silverdisc.co.uk
Chris Dimmock, Cogentis.com.au

8. ANNEXE A. FORMULES DE c-INDEX

Pour trois termes, k1, k2 et k3, les valeurs de c-index peuvent être calculées par la formule :


c123-index

Si l’on considère deux termes seulement


c12-index

n 1 = nombre de documents contenant k1

n 2 = nombre de dcouments contenant k2

n 3 = nombre de dcouments contenant k3

n 12 = nombre de dcouments contenant k1 et k2

n 23 = nombre de dcouments contenant k2 et k3

n 13 = nombre de dcouments contenant k1 et k3

n 123 = nombre de dcouments contenant k1, k2 et k3

Par commodité, nous exprimons les valeurs de c-index values en parties par millier (ppm) puisqu’il s’agit de faibles valeurs réduites. Pour calculer les c-index pour n’importe quel nombre de termes ou combinaison de termes à la fois en mode FINDALL et EXACT, on se référera à la référence 17.

9. REFERENCES BIBLIOGRAPHIQUES

  1. G. Salton and C. Buckley ; Improving retrieval performance by relevance feedback Journal of the American Society for Information Science, 41:288-297, 1990.
  2. K. Sparck Jones and D. M. Jackson ; The use of automatically-obtained keyword classifications for information retrieval. Information Processing and Management, 5:175-201, 1970.
  3. R. Attar and A. S. Fraenkel ; Local feedback in full-text retrieval systems. Journal of the ACM, 24(3):397-417, July 1977.
  4. J. Xu and W. B. Croft ; Improving the Effectiveness of Informational Retrieval with Local Context Analysis http://citeseer.ist.psu.edu/cache/papers/cs
    /2875/http:zSzzSzwww.cs.umass.eduzSz xuzSzlca.pdf/xu00improving.pdf
  5. R. Baeza-Yates and B. Ribeiro-Neto ; Modern Information Retrieval, Chapter 5 ; ACM Press, 1999.
  6. Y. Jing and W. B. Croft ; An association thesaurus for information retrieval. Proceedings of RIAO 94, pages 146-160, 1994.
  7. D. Cai, S. Yu, J. Wen and W. Ma ; Block-based Web Search
    http://research.microsoft.com/asia/dload_files/group/ims/21.pdf
  8. Ponte, J. M. and Croft, W. B. ; Text Segmentation by Topic, In Proceedings of the 1st European Conference on Research and Advanced Technology for Digital Libraries, 1997
  9. J. C. French, L. M. Olsen, W. N. Martin ; Thesaurus Support when Searching Earth Science Data
    http://esto.nasa.gov/conferences/estc-2002/Papers/B6P4(French2).pdf
  10. Google Adwords : Keyword Tool
    https://adwords.google.com/select/KeywordSandbox
  11. Google Press Center : Zeitgeist
    http://www.google.com/press/zeitgeist.html
  12. Overture – Search Term Suggestion Tool
    http://inventory.overture.com/d/searchinventory/suggestion/
  13. Yahoo ! Buzz Index – Today’s Top 20 Overall Searches
    http://buzz.yahoo.com/overall/
  14. Ask Jeeves About
    http://sp.ask.com/docs/about/jeevesiq.html?o=0
  15. Lycos 50
    http://50.lycos.com/
  16. WordTracker
    http://www.wordtracker.com/
  17. Keywords Co-Occurrence and Semantic Connectivity Strategies
    http://www.miislita.com/semantics/c-index-2.html
  18. The Head Element and Related Elements
    http://www.w3.org/MarkUp/html3/dochead.html
  19. PDQ_MED
    http://www.inpharmix.com/pdq_med_example.htm
  20. R. Nelken, E. Amitay, A. Soffer, W. Niblack, D.C. Smith ;
    Disambiguation for Text Mining on the Web
    http://www2003.org/cdrom/
    papers/poster/p302/final_poster/final_html_version.htm
About the Author

Dr. Garcia’s research focuses on applied fractal geometry and information retrieval. He holds a Ph.D. from Arizona State University and a B.S. from The InterAmerican University.

Copyright (c) 2004 E. Garcia
All Rights Reserved.