ANALYSE THEMATIQUE (3/4) par le Pr E. Garcia

4. RESULTATS

4.1 Mise en oeuvre

Nous allons maintenant décrire le mise en oeuvre de notre analyse thématique. D’abord, nous présenterons les résultats pour termes sortant en premier et nous décrirons les effets de N sur Pi. Ensuite, nous présenterons les résultats pour les termes « élargis », « affinés » et « hors sujet ». Enfin, nous comparerons les résultats avec ceux d’un outil tiers.

4.2 Termes sortant en premier

La figure 2 montre les données de c-index pour les thèmes choisis auparavant (Tables 2 – 4, 10) et pour les thèmes proposés par les SEOs (1, 5 – 9). Les résultats d’occurrence et de co-occurrence changent avec le temps puisque Google met sans arrêt à jour son index. Pourtant, des tendances concernant les c-index peuvent être extraites des graphes présentant des séries temporelles.


 

Figure 2.Valeurs de c-index values pour plusieurs thématiques.

 

Sur la Figure 2, les quantités n1 et n2 sont le nombre de documents contenant respectivement les termes k1 et k2, et sont utilisées comme mesure d’occurrence des termes. Les quantités n12 sont le nombre de docuements contenant à la fois k1 et k2 et déterminent les co-occurrences absolues des termes. La dermnière colonne montre les indices c12-indices, en parties par millier (ppm). La figure 3 montre une représentat une représentation en diagramme de Venn des occurrences et des co-occurrences.



Figure 3.Diagramme de Venn pour deux jeux de résultats non exclusifs mutuellement, n1 et n2.

La formule du c12-index présentée dans l’annexe A peut être déduite directement du ratio intersection/union du diagramme de Venn. Remarquons que le c-index est une co-occurrence normée. C’est une meilleure mesure pour comparer les co-occurrences de termes entre différentes requêtes et jeux de documents, , que les valeurs absolues de co-occurrence, puisque différents jeux de requêtes (k1, k2, and k12) produisent différents jeux de documents (n1, n2, and n12). Pour illustrer ceci, notons que sur la Figure 2 car insurance renvoie 12 500 000 documents et football odds renvoie 2 790 000 documents. Pourtant, leurs co-occurrences normées sont égales à 39,49 and 56,71 ppm, respectivement.

4.3 L’extraction des termes

Pour toutes les requêtes, nous avons calculé les résultats pour les titres classés dans les 30 premiers. Mais, afin de pouvoir opérer des comparaisons, nous avons aussi calculé les résultats pour les 100 et 200 premiers. L’objectif était de déterminer l’impact de N sur la distribution relative des valeurs de Pi values et d’observer si les termes « hors sujet » ou « affinés » pouvaient être déterminés simplement en connaissant leurs valeurs de Pi.

Pour tester notre procédure, nous avons tout d’abord collecté les résultats pour la phrase mexican food (c’est à dire, k1 = mexican et k2 = food). Ils sont présentés dans le Tableau 1. RI est la position du terme i dans le tableau des termes isolés et Pi est exprimé en pourcentage. La table montre

  • qu’il est possible de distinguer les termes « élargis » et « hors sujet ». Les termes parlant du sujet se trouvent en haut des listes de Pi, suivi par des termes concernant une thématique « élargie » eux mêmes suivis par des termes « affinés » selon l’ordre suivantSommet > Elargi > Affiné et Hors sujet
  • Les termes « affinés » et « hors sujet » ont tendance à montrer des valeurs faibles de Pi. En se basant seulement sur les valeurs de Pi , ces termes ne sont donc pas faciles à distinguer.

Ces résultats suggèrent que des termes comme recipes, cuisine, cooking sont des termes appartenant à la thématique élargie, et peuvent donc être utiliser pour renforcer la sémantique d’un site thématique ou d’un document internet sur mexican food.

4.4 Valeurs de N et Pi

Nous allons maintenant vérifier l’impact de N sur la distribution des termes. N étant augmenté pour passer de 30 à 100 puis à 200

  • La séquence Sommet > Elargi > Affiné est conservée ; mais les termes n’apparaissent pas forcément dans le même ordre.
  • On trouve plus de termes « hors sujet » et « de thématique affinée »
  • On trouve plus de termes hors sujet en bas des listes. Ce n’est pas surprenant puisque qu’avec l’augmentation de N les utilisateurs se voient proposer plus de titres moins pertinents et plus de termes sans rapport avec le sujet.

Nous avons systématiquement observé des résultats similaires avec d’autres requêtes. Par exemple avec les requêtes préselectionnées (voir Tableaux 2, 3 , et 4), et avec les requêtes proposées par les SEOs (voir Tableaux 5, 6, 7, 8, et 9).

4.5 Termes « plus larges »


Nous allons présenter un certains nombre de faits à propos des termes « plus larges ». Le Tableau 4 (auto insurance) et le Tableau 5 (car insurance) présentent les résultats pour deux requêtes décrivant le même concept, à savoir l’assurance automobile. Les tableaux révèlent des points communs et des différences. Tout d’abord les termes car, insurance, auto, quotes, et quote se trouvent en haut des listes. Ce sont donc des termes « plus larges » pour la thématique correspondante.

Pour N = 30, les deux tableaux contiennent beaucoup de termes non semblables. En outre, il faut remarquer que le terme UK, que l’on trouve systématiquement en haut des listes dans le Tableau 5 (car insurance), ne se trouve pas dans les 30 premiers et les 100 premiers résultats du Tableau 4 (auto insurance). Le fait que l’on trouve systématiquement UK dans les 30, 100 et 200 premiers titres pertinents pour une recherche sur car insurance pourrait être la conséquence d’une stratégie de géo-ciblage bien organisée.

Ceci démontre qu’un terme trouvé en tête des listes Pi n’est pas toujours pertinent. On ne doit donc trier les termes dans la thématique et les termes hors sujets que s’ils ont de fortes valeurs de Pi. En effet, une requête composée de termes faiblement connectés pourrait produire des listes de probabilité avec des termes « hors sujet » en tête des listes.

Par exemple, la plupart des utilisateurs des moteurs de recherche associent plus volontiers le mot aloha avec Hawaii qu’avec Indiana ou Montana. C’est une association sémantique due à un usage fortement répandu ; ce n’est pas une association de type « synonyme » pouvant s’appuyer sur des définitions de dictionnaire ou des structures de données en thesaurus. Comme prévu, les calculs des c-index pour aloha hawaii, aloha indiana, et aloha montana sont en accord avec le sens commun pour dire que aloha est plus « connecté » avec Hawaii qu’avec Indiana ou Montana ; C’est à dire :


c12-index (aloha hawaii) = 29,67 ppm
c12-index (aloha indiana) = 3,16 ppm
c12-index (aloha montana) = 3,99 ppm

Le Tableau 10 montre les valeurs de Pi pour les 30 premiers titres pour ces requêtes. La requête aloha hawaii permet de découvrir beaucoup de termes pertinents tandis que les requêtesaloha indiana et aloha montana renvoient trop de termes hors sujets en tête des listes. En général, des termes hors sujet, faiblement connectés, ont tendance à retourner plus de termes « hors sujet ».

4.6 Termes « plus précis »

Nous allons maintenant examiner le problème consistant à sélectionnant et déterminer les termes « plus précis ». Dans cette expérience, nous avons utilisé le concept des c-index comme une mesure permettant de sélectionner les termes pertinents pour une thématique donnée. Les termes « plus larges » ont été combinés avec ces termes et sélectionnés en mesurant leur c-index .

Mais cette approche fonctionne rarement avec les termes « plus précis » d’une thématique. Ces termes ont tendance à produire de faibles valeurs de c-index lorqu’ils sont combinés avec les termes de la thématique ou les termes « plus vagues ». Ceci n’a rien de surprenant. Si on les compare avec les termes de la thématique et les termes « plus vagues », les termes « plus précis » ont tendance à avoir des niveaux d’occurence plus faibles. Un calcul de c-index devrait donc comporter des additions, soustractions, et des divisions entre des quantités relativement importantes et relativement faibles.

La manière la plus simple pour repérer les termes « plus précis », c’est de les combiner avec d’autres termes « plus précis » de la même thématique et de vérifier leurs valeurs de c-index. Cette approche facilite la détermination de termes « plus précis » et conduit également à découvrir de nouveaux termes « plus précis » pour la thématique considérée. Par exemple, si l’on considère les requêtes tortillas burritos (c12-index = 36.47 ppm) et tamales fajitas (c12-index = 30.01 ppm). Si l’on se base sur leurs c-index, ces termes peuvent être sélectionnés comme des termes de la thématique. Le Tableau 11 montre les résultats pour ces requêtes. Remarquons que de nouveaux termes « plus précis » apparaissent. On peut observer que ces termes « gravitent » autour de termes comme recipes, mexican, restaurant, et des termes similaires.

4.7 Termes hors sujets

Nous allons maintenant nous attaquer au problème de la discrimination entre les termes de la thématique et les termes « hors sujet » qui apparaissent en tête des listes de Pi. Pour y parvenir, nous présentons trois approches différentes, que nous appellerons par la suite méthode I, méthode II, et méthode III. Dans la méthode I, nous calculons la valeur de c-index entre le thème défini par deux mots et un terme à tester. Si le résultat est en dessous d’un seuil donné, le terme est rejeté. La formule opérationnelle pour calculer un c-index pour trois termes co-occurrents est décrite dans l’annexe A. Cette formule découle directement du diagramme de Venn montré dans la Figure 4.



Figure 4. Diagramme de Venn pour les jeux de résultats non mutuellement exclusifs n1, n2, and n3. Remarquons que la co-occurrence normée (exprimée par sa valeur de c-index) est influencée par un regroupement d’occurrences et de co-occurrences.

Nous allons maintenant présenter la Méthode II. Cette méthode consiste à redéfinir le thème constitué de deux mots comme une requête unique composée d’un seul terme isolé et de calculer une paire de valeurs de c12-index value. Nous obtenons ce résultats en entourant par des guillemets le thème constitué de deux mots. Par exemple, pour étudier la paire de c-index pour UK et car insurance nous définissons les termes suivants

k1=UK
k2= »car insurance »
k12=UK « car insurance »

Quoi qu’il en soit, cette méthode impose de réaliser une requête en mode EXACT sur les termes car insurance puisqu’à présent, ces termes doivent être trouvés dans les documents en tenant compte de l’ordre des mots et de leur proximité.

Dans la méthode III, nous combinons les termes du theme avec un terme à tester, and nous calculons la paire de c-index. Pour des termes multiples et des thèmes d’une certaine longueur, l’utilisation d’une matrice de co-occurences de dimension « NxN » permet de s’assurer que toutes les combinaisons possibles de k12 sont vérifiées. Pourtant cette méthode mène souvent au calcul de valeus de c-index pour des combinaisons qui sont triviales ou clairement hors-sujet. C’est notamment le cas pour des combinaisons sur autre chose que des noms. Par exemple, dans le Tableau 7 (used cars) le terme new sort en tête des listes des Pi. Calculer un c-index pour new used est un exercice sans intérêt et confirme que l’affirmation de Xu et Croft’s selon laquelle les noms sont plus porteurs d’information que les autres types de termes (4).

Les méthodes I, II, et III sont illustrés par la Figure 5. A titre d’exemple, les termes UK et le theme car insurance sont examinés en détail.



Figure 5.Méthodes discriminantes.


La méthode I et II révèlent que UK est faiblement connecté avec le thème car insurance et donc doit être rejeté en tant que terme appartenant au sujet. Pour comparer les résultats, nous avons vérifié les autres termes à tester trouvés dans le Tableau 5. La Méthode III produit des valeurs de c-index plus proches mais toujours en dessous de la valeur de seuil.

4.8 Test de comparaison

Nous allons maintenant comparer nos résultats avec les résultats obtenus à l’aide de l’outil de suggestion de mots clé fourni par Google, Google AdWords Keyword Tool (10). Avant d’aller plus loin, nous devons signaler que toute comparaison doit être replacée dans son contexte précis pour deux raisons. Premièrement, l’outil de suggestion de mots clés renvoie des termes choisis en fonction des requêtes les plus fréquentes, tandis que notre procédure détermine des termes en fonction des titres des pages retournées en tête des résultats.

Deuxièmement, notre procédure a été pensée pour déterminer des termes à partir de paragraphes extraits de n’importe quel moteur de recherche, alors que l’outil de suggestion de mots clés a été conçu pour proposer des termes plus ou moins reliés avec les annonces positionnées sur les pages de Google ; La détermination de ces mots clés est donc conditionnée par les comportements de recherche et l’activité publicitaire sur le moteur Google. C’est pourquoi toute comparaison en termes de performance et de valeurs de c-index ne tiendrait pas la route. Ce que nous cherchons plutôt à comparer, c’est la liste des termes qui sont réellement renvoyés par les deux outils.

L’outil de suggestion de mots clés fournit deux types de résultats, appelés More Specific Keywords et Similar Keywords. Selon Google, More Specific Keywords renvoie « les requêtes les plus tapées » qui contiennent le(s) terme(s) entrés. Similar Keywords liste des résultats plus étendus et des mots clés supplémentaires. Selon Google, les utilisateurs qui cherchent la requête entrée ont également effectué des recherches sur les termes listés parmis les Similar Keywords.

Le Tableau 12 donne les résultats obtenus pour la requête mexican food avec l’outil de suggestion de mots clés. A moins d’être familier avec l’outil, il est assez difficile la première fois pour un utilisateur de déterminer si les résultats sont triés ou pas (si l’on se fie à un paramètre donné). Une comparaison entre le Tableau 12 et leTableau 1 montre qu’un grand nombre des termes renvoyés par l’outil de suggestion de mots clés sont également donnés et triés par notre outil.

En dépit de sa popularité, l’Outil de suggestion de mots clés a plusieurs limitations. La première et la plus évidente c’est que les termes donnés par l’outil sont conditionnés par les comportements de recherche et la logique publicitaire de Google. La seconde, c’est que certaines combinaisons de termes produisent des résultats partiels ou même, pas de résultats du tout. Cela peut se comprendre puisque l’outil de suggestion de mots clés a été conçu pour améliorer la pertinence des termes associés avec les annonces, et non pour servir comme un outil de recherche de termes de portée plus générale.

Le Tableau 13, montre des résultats obtenus grace à l’outil de suggestion de mots clés. Au moment d’écrire cet article l’outil ne renvoyait aucun résultats pour la requêtenigritude ultramarine. Une recherche sur integrated optimization renvoyait des résultats dans les Similar Keywords mais pas dans les More Specific Keywords. Nous avons observé des résultats semblables avec d’autres requêtes. Obtenir via internet des termes appartenant à un thème donné n’est donc pas toujours possible avec cet outil. Le Tableau 14 (nigritude ultramarine ; c12-index = 382.80 ppt) et le Tableau 15 (integrated optimization ; c12-index = 43.81 ppt) donne les résultats obtenus avec notre outil. Remarquez quels termes « à propos » et « hors sujet »sont identifiés.

[à suivre…]

Quatrième partie