ANALYSE THEMATIQUE (2/4) par le Pr E. Garcia

3. PROCEDURE

3.1 Paramètres d’environnement pour les requêtes

Considérant que les utilisateurs lamba sont enclins à effectuer leurs recherches en mode par défaut, toutes les recherches ont été effectuées sur Google en utilisant son mode de recherche par défaut. Pour Google et la plupart des moteurs de recherche, ce mode correspond à FINDALL (ou mode AND). Les termes entrée dans ce mode de recherche doivent apparaître dans les documents trouvés. Les mots-clés peuvent être n’importe où dans les documents, sans prise en compte des notions d’ordre ou de proximité. Quoi qu’il en soit, puisque les moteurs de recherche ont tendance à accorder plus d’importance aux termes placés dans les titres, les termes recherchés sont habituellement présents dans les titres des N premiers documents classés (et au début de ces documents). Dans cette expérience, nous définissons les N premiers documents pertinents comme les 30 premiers résultats classés. Cette définition répond aux critères des recherches effectuées précédemment sur le retour de pertinence et la méthode LCA (5, 6).

3.2 Echantillonnage

En plus des requêtes préselectionnées, nous avons demandé des requêtes tests à cinq spécialistes du référencement (SEOs). Pour établir des paramètres de requêtes identiques, ces spécialistes se sont vus demander de fournir des phrases-clé décrivant un thème de la forme Q = k1 + k2, où chaque k était un simple mot anglais, entouré par un espace. Pour s’assurer que k1 et k2 avaient un certain niveau de co-occurrence dans la base de données de Google, nous avons accepté des phrases clé dont l’indice de co-occurrence (c-index )supérieur ou égal à un seuil empirique. L’ Annexe A and et la reference 17 détaillent la théorie des c-index et de la co-occurrence de termes. Face à l’absence d’un point de référence standard, nous avons sélectionné des requêtes en fonction de nos expériences précédentes sur Google. Nous avons pu déterminer que la plupart des requêtes concurrentielles comportant deux mots ont des valeurs de c-index autour de 25 ppm (25 parties par millier) dans Google. Par conséquent, nous avons utilisé des phrases-clé dont le c-index était supérieur ou égal à 25 ppm.

3.3 Acquisition des données

Toutes nos données expérimentales ont été collectées et traitées par notre Analyseur Sémantique (AS). Cet outil comporte un parseur, un compteur de mots, une liste de mots-vides [1], une bibliothèque d’expressions régulières , et plusieurs calculateurs de similarité (Cosinus, Coefficient de Dice, Indice de Salton, etc…). L’outil dispose également d’un calculateur tf*idf, d’un évaluateur de rang Zipf [2], d’un calculateur de c-index et de ratio EF [3]. Le logiciel AS peut être programmé pour exclure ou inclure les mots-vides et trier les résultats en fonction des probabilités d’occurrence.

Dans une analyse typique, nous cherchons dans Google une phrase liée à un thème, nous récupérons les N premiers documents classés, et extrayons un passage de chaque document. Dans cette expérience, un passage est défini comme le titre du document. Comme tous les titres ne sont pas de la même longueur, nous devons gérer le problème du choix des longueurs optimales pour les titres.

Heureusement, Google limite l’affichage des titres à 68 caractères maximum (en comptant les espaces). D’autres moteurs de recherches utilisent des longueurs maximum différentes. Le W3C recommande de ne pas dépasser 64 caractères pour la longueur des titres (18). La plupart des référenceurs préfèrent rester en dessous des 50-60 caractères pour les titres, afin de s’assurer qu’ils s’affichent intégralement dans tous les moteurs. Il y’a un consensus sur le fait que des titres courts véhiculent une information plus précise que des titres longs, particulièrement quand les termes pertinents sont placés au début du titre. Pour notre analyse thématique, nous limitons chaque titre au titre visible par le système d’extraction, quelle que soit sa longueur réelle.

Tous les passages sont importés dans notre logiciel et convertis en un flux de termes en minuscule. Le flux est tokenizé et les mots-vides sont enlevés. Nous n’utilisons pas de methode de lemmatisation. Puis, les termes différents sont comptés, et stockés dans un tableau de termes au fur et à mesure de leur découverte. Enfin, les termes différents sont triés en fonction de leur probabilité d’occurrence PI, où

Pi = Fi/Ftotal

Fi est l’occurrence du terme i et Ftotal est la somme de toutes les occurrences. Les termes avec la même probabilité sont affichés dans l’ordre correspondant à leur position dans le flux original de termes ; ainsi, les termes qui apparaissent tout en bas des listes de Pi sont présentsdans les titres les moins pertinents. Pour chaque jeu de termes extraits, nous calculons le nombre de termes différents par titre, et le nombre total de termes par titre. Pour améliorer la présentation, les termes sont mis en majuscule et affichés dans des tables HTML. Le traitement complet est fluide et transparent pour les utilisateurs finaux.

3.4 Traitement des données

Nous allons maintenant détailler les questions de calcul et de vitesse de traitement. La vitesse d’extraction dépend du système interrogé. Dans une analyse standard, le traitement du texte, l’élimination des mots vides, les calculs de Pi , et la génération de tables HTML triées prend quelques secondes. Comme l’outil s’appuie sur un browser, la vitesse de traitement est limitée par la capacité du navigateur à traiter de grandes valeurs de N, et d’interpréter de longues tables HTML.

Notre logiciel permet la récupération de termes à la demande pour n’importe quelle valeur de N et pour n’importe quel thème. A l’heure actuelle, le calculateur de c-index calcule les valeurs pour deux ou trois termes co-occurents. Nous envisageons d’implémenter un calculateur matriciel capable de gérer n’importe quel nombre de calculs de c-index pour n’importe quel nombre de termes.

[à suivre…]

Troisième partie


[1] NdT : stop list. Cette expression est utilisé dans trois sens différents suivant le contexte : liste de mots interdits, liste de mots d’arrêts, liste de mots-vides (le, de, … des mots vides de sens). Dans ce contexte, il s’agit de la dernière acception

[2] La distribution statistique des mots d’un texte suit une loi connue depuis le début du siècle dernier du nom de son découvreur : la loi de Zipf. Cette loi dit

Rang x Fréquence = Constante,

ce qui signifie que si nous multiplions le rang d’un mot (sa place dans un classement par ordre décroissant d’apparitions) par le nombre de fois où nous le trouvons dans un texte, nous aurons tendance à trouver un chiffre constant. Autrement dit, si le mot le plus fréquent d’un texte (rang = 1) est dit 1000 fois, le deuxième mot aura tendance à se trouver 500 fois dans le texte et ainsi de suite… A la fin de la liste nous trouverons 1000 mots n’ayant été dit qu’une seule fois dans le texte.

[3] NdT : ratio inventé par l’auteur, qui mesure le quotient entre le nombre d’occurrences trouvées en mode EXACT par rapport au nombre trouvé en mode FINDALL