Aller au contenu

Latent Semantic Indexing


Cariboo

Sujets conseillés

Ces temps-ci je vois apparaître un peu partout des allusions à une méthode de statistique linguistique connue sous le nom de Latent Semantic Indexing (LSI, mais aussi appelée LSA c'est la même chose).

Cela fait des années que LSI revient dans les conversations de salon entre référenceurs. A plusieurs reprises en effet, on a attribué certains changements dans l'algorithme de Google à l'introduction de LSI dans ses méthodes de "notation" des pages.

Avec le temps, on a mis LSI à toutes les sauces. Il se raconte pas mal de bêtises dans le monde du référencement, mais en ce qui concerne LSI, je crois que l'on bat un record absolu dans le genre "délires complet".

Après avoir lu ce matin encore un sujet affligeant sur le sujet dans un forum, je me suis dit qu'une petite mise au point s'imposait car je crois que quelques personnes sensées fréquentent le Hub, et que quelques infos sur le sujet pouvait empêcher certains de se faire intoxiquer...

Car il y'a une dérive qu'exploitent de véritables charlatans : LSI devient un argument marketing, que certains utilisent avec une grande malhonnêteté intellectuelle...

Exemple superbe du genre : http://www.free-seo-news.com/newsletter147.htm#facts

Commençons par tordre le coup aux principaux bobards qui trainent sur le net :

1. L'opérateur ~ (tilde) de google à quelque chose à voir avec l'algo LSI

Pas du tout... C'est bien de la sémantique appliquée, mais cela se base sur une ontologie, LSI n'a rien à voir là dedans

2. Les derniers changements dans Google montrent qu'ils utilisent LSI dans l'algo

Il semble que l'algo de google donne de trop mauvais résultats en matière de polysémie pour penser que des calculs de ce genre soient réellement utilisés...

Archétype de ce genre d'affirmation sans preuves : http://www.sitepoint.com/article/brandy-google-update

Mais on peut parier sur le fait que Google travaille d'arrache pied à intégrer LSI ou une méthode cousine ou autre chose poursuivant les mêmes objectifs dans son algo, en résolvant les problèmes de calcul temps réel que ça pose...

On peut se servir de LSI pour améliorer le référencement

Oui, sauf que cet argument est généralement utilisé pour vendre des outils qui, soient n'utilisent pas LSI (les outils basés sur les indices de cooccurrence), soient l'utilisent de manière erronée et sont dangereux à utiliser.

Mais c'est quoi LSI en fait

Le système le plus utilisé dans les outils de recherche pour classer les pages est un calcul de similarité baptisé TF*IDF. Ces calculs sont effectués en partant du principe que les mots n'ont pas de relation entre eux, ce qui permet de faire des statistiques sur leur fréquence d'apparition en se fichant de leur contexte d'apparition.

Cette méthode donne de très bons résultats... Mais intuitivement on devine qu'on perd avec cette méthode des informations utiles.

Si l'on part du principe que dans un texte les mots sont en fait reliés par des relations liées au "sens" du document, on est amené à effectuer d'autre types de calculs.

Deux grandes familles de techniques peuvent alors être utilisées pour analyser les documents : la méthode dite de l'Espace d'Information, et LSI.

Dans la méthode de l'Espace d'Information, on crée une matrice carrée terme à terme, et on procède à une Analyse en Composante Principale pour trouver des corrélations entre les termes. Dans LSI on utilise une décomposition en valeur singulière (DVS) sur une matrice termes x documents.

Ces techniques statistiques permettent d'extraire des informations sur les relations entre termes, et d'en déduire des infos sur la thématique d'un document ou d'une portion de document. Par thématique il faut entendre d'une manière plus générale "ce dont on parle là dedans". L'avantage de LSI est que cette méthode permet de découvrir une "méta structure" dans les corrélations entre termes dans un document. Mais pour info, ce n'est pas la seule (le clustering, ça marche aussi), et ce n'est pas forcément la plus facile à intégrer dans un outil de recherche...

Lien vers le commentaire
Partager sur d’autres sites

En effet, ça fait un bail (2 ans peut-être ?) que je me suis penché sur le LSI. Ca me semble un concept intéressant sur le point de vue scientifique mais je ne sais pas si l'application grand public peut marcher (le PageRank est un exemple flagrant de concept scientifique qui a été galvaudé par l'utilisation commerciale).

Par contre, je ne sais pas dans quelle mesure elle est en application aujourd'hui. Vous avez des exemples concrets de mise en place du LSI sur les moteurs ?

Pour finir, il me semblait que le LSI concernait uniquement les termes adjacents ? Voire même que les adjectifs ou tout du moins qu'une catégorie de termes ? Je me trompe ?

Lien vers le commentaire
Partager sur d’autres sites

Pour finir, il me semblait que le LSI concernait uniquement les termes adjacents ? Voire même que les adjectifs ou tout du moins qu'une catégorie de termes ? Je me trompe ?

On peut calculer une matrice de concepts avec LSI sur n'importe quel type de termes. Et les calculs portent simplement sur des correlations statistiques entre des occurences de termes, ce qui veut dire que la grammaire est totalement ignorée dans l'histoire...

Lien vers le commentaire
Partager sur d’autres sites

OK pour la matrice, mais il y avait aussi un problème par rapport au "poids" du mot. Est-ce que il y a une évolution de ce côté là car c'était un peu la faiblesse du système ? Je me rappelle un peu plus précisement ce que j'avais lu il y a longtemps et la matrice dont je parle essayait justement de se caler sur certains types de mots (je crois bien que c'était les adjectifs) car sinon le modèle mathématique était trop général pour une application directe sur la recherche d'information.

Lien vers le commentaire
Partager sur d’autres sites

Pour autant que je sache (je ne manipule pas ces trucs tous les jours , loin de là), le problème c'est qu'effectivement avec LSI on a des difficultés sérieuses d'interprétation des résultats...

Les "tours de magie" pratiqués sur la matrice termes x documents éliminent des dimensions et font apparaître des correlations entre des choses... parfois surprenantes.

C'est un phénomène bien connu en statistique, "corrélation n'est pas raison". Donc deux termes soit disant reliés à un même concept sont parfois en réalité totalement déconnectés sur le plan sémantique, la corrélation provenant de l'écrasement d'une ou plusieurs relations dans un plan orthogonal...

Choisir les termes à étudier fait partie des mesures permettant d'éliminer des résultats parfois... étranges.

C'est pour cela que LSA est connu pour bien marcher en laboratoire, mais dès qu'on lui fait avaler n'importe quelle page web sans traitement préalable, on a souvent des surprises douloureuses.

Lien vers le commentaire
Partager sur d’autres sites

Est ce que les termes ne doivent pas faire partie d'un espace sémantique restreint pour que l'on puisse interpreté le résultat ?

du coup on se mort un peu la queue, puisqu'il faut connaitre l'ontologie avant de definir la matrice (meme si l'on pourrait la definir par les anchors pour le cas des moteurs de recherche ) ?

Modifié par salemioche
Lien vers le commentaire
Partager sur d’autres sites

Entre parenthèse : ce qui est interessant de voir c'est encore une fois le décalage entre google US et google fr.

Les Gourou SEO ont beaucoup parlé du LSI en début 2005 et se basait sur l'opérateur tilde pour prouver leurs théorie. Ainsi on constatait que si l'on tapait ~business dans google ce dernier renvoyait et renvoie toujours un ensemble de mot sémantiquement proche de business en gras.

Aujourd'hui fin 2006 sur google fr l'opérateur renvoie bien des mots sémantiquement proche mais pour moins de mots :

Exemple: sur google us ~financial renvoie: accounting, Capital, investisment, stock, banq, money.....

Sur google.fr: ~finance renvoie: finance ou finances :lol:

Merci Cariboo pour ton intervention interessante meme si j'avoue ne pas avoir tous compris sur le LSI. Mais je suis à l'instant en train de me documenté sur le sujet.

Modifié par appollo
Lien vers le commentaire
Partager sur d’autres sites

Est ce que les termes ne doivent pas faire partie d'un espace sémantique restreint pour que l'on puisse interpreté le résultat ?

Euh, non ! En fait la méthode ayant tendance à éliminer tout ce qui est bruit pour dégager des correlations cachées (d'où le terme "latent" qu'il faut traduire par sous-jacent et non latent), il vaut mieux que les taux de coocurrence de départ soient bien différenciés pour obtenir des résultats "nets".

Si on travaille sur un espace sémantique trop restreint cela donne de la bouillie pour chat...

Bref, il faut pouvoir dégager des concepts différents, si on ne travaille que sur un concept, la méthode n'a pas d'intérêt.

Lien vers le commentaire
Partager sur d’autres sites

Les Gourou SEO ont beaucoup parlé du LSI en début 2005 et se basait sur l'opérateur tilde pour prouver leurs théorie. Ainsi on constatait que si l'on tapait ~business dans google ce dernier renvoyait et renvoie toujours un ensemble de mot sémantiquement proche de business en gras.

Il y'a une explication simple à ça : l'opérateur tilde, c'est de la sémantique appliquée, et le seul bidule de statistique linguistique connus de ces pseudos gourous était LSI/LSA, donc ils ont dit "bon sang, mais c'est bien sûr, c'est LSI".

D'autant plus que le côté caché (latent) de cet outil rajoute au mystère !

Des méthodes de statistique linguistique applicables à ce genre de choses, j'en découvre tous les jours !! Alors pourquoi LSI ?

Par exemple, une autre méthode pour obtenir l'effet escompté sont les outils de "clustering", et il en existe des dizaines de variantes.

Heureusement, quelqu'un de chez Google a lâché depuis longtemps qu'ils utilisaient une ontologie pour obtenir les résultats de l'opérateur tilde, donc la messe est dite. Après je ne sais pas quelle méthode a servi pour bâtir cette ontologie : sont ils partis d'une ontologie existante comme l'ASO, ou ont ils construits à grand renfort de calculs statistiques, je ne sais pas.

Lien vers le commentaire
Partager sur d’autres sites

Il y'a une explication simple à ça : l'opérateur tilde, c'est de la sémantique appliquée, et le seul bidule de statistique linguistique connus de ces pseudos gourous était LSI/LSA, donc ils ont dit "bon sang, mais c'est bien sûr, c'est LSI".

La confusion peut s'expliquer car on sait bien que les occurences c'est le dada de Google...

En tout cas, pour moi, le LSI reste une matrice mathématique qui ne peut pas s'appliquer dans le domaine commercial de la recherche d'information, mais c'est peut-être le départ d'une évolution si on omet un passage flagrant vers la sémantique appliquée.

Lien vers le commentaire
Partager sur d’autres sites

J'ai toujours du mal à tracer des frontières entre analyse thématique et analyse sémantique... Probablement cela explique ma question : Cariboo, n'est-ce pas toi qui avait parlé d'un PageRank thématique ?

La délimitation de thématique n'est-elle obtenue avec des analyse type LSI ??

Lien vers le commentaire
Partager sur d’autres sites

La délimitation de thématique n'est-elle obtenue avec des analyse type LSI ??

Il est clair qu'une analyse thématique repose, en partie, sur les répétitions de termes. Pour le peu que j'en sais la délimitation de thème repose sur une analyse des blocs de texte en tracant une courbe des ruptures thématiques. Il y a aussi des possibilités d'analyse de cohésion lexicale avec d'autres méthodes, mais je ne crois pas que ces matrices soient en relation directe avec le LSI.

Lien vers le commentaire
Partager sur d’autres sites

  • 2 semaines plus tard...

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...