Aller au contenu

Cycle d'articles sur la sémantique appliquée


Cariboo

Sujets conseillés

J'entame la publication aujourd'hui d'une série de 6 articles (plus une annexe bibliographique) sur l'état de l'art en sémantique et linguistique appliquée dans les moteurs de recherche et le référencement...

Je publie aujourd'hui le premier article :

INTRODUCTION A LA SEMANTIQUE ET A LA LINGUISTIQUE STATISTIQUE

Ainsi que la partie "Annexes" avec les références bibliographiques ...

LES ANNEXES

Et je communique, pour ceux qui veulent suivre le feuilleton, les prochains articles, qui seront publiés d'ici la fin du mois.

DEUXIEME PARTIE : LA SEMANTIQUE ET LES OUTILS DE RECHERCHE

1. Quel rôle joue aujourd'hui la sémantique et la linguistique dans les moteurs de recherche grand public ?

2. Les moteurs de recherche actuels utilisant la sémantique

3. La sémantique : comment révolutionner demain la recherche d'information sur le web

TROISIEME PARTIE : L'AUTRE SEMANTIQUE - LE WEB SEMANTIQUE ET LA RECHERCHE D'INFORMATION

1. Le Web Sémantique : principes et applications

On parle beaucoup de sémantique entre webmasters, mais le terme recouvre plusieurs notions très éloignées.

2. Le Web Sémantique : une utopie condamnée ou une révolution en marche ?

Le Web Sémantique à ses militants inconditionnels, mais aussi ses pourfendeurs et ses détracteurs. Quels sont les arguments des uns et des autres ?

3. L'exemple de SEMTAG : le balisage sémantique automatique est possible

Créer un outil permettant d'ajouter automatiquement les bonnes balises dans des documents non balisés permet d'envisager de nouvelles applications pour le web sémantique

QUATRIEME PARTIE : METHODES LINGUISTIQUES ET SEMANTIQUES DANS LES SYSTEMES D'EXTRACTION D'INFORMATION

- Méthodes Statistiques

- Analyse Morphologique

- Analyse Syntaxique

- Evaluation de pertinence : modèle vectoriel contre modèle booléen

- L'expansion de requête

- Le retour de pertinence

- Les thesaurus

- L'approche inférentielle de la recherche : algorithmes bayesiens

- Le problème de la désambiguation

- Les ontologies et les taxonomies

- Les relations sémantiques

- Théorie probabiliste de l'information de Shannon

- Désambiguation probabiliste

- Le clustering

CINQUIEME PARTIE : APERCU DES ALGORITHMES ET OUTILS MATHEMATIQUES

1. Densité de mots clés, et modèles vectoriels de Salton

2. Les mesures de similarités

indice de co-occurence

ratio EF

cosinus de Salton

coefficient de Dice

les mesures de similarité conceptuelles : Resnik, Jiang-Conrath, Hirst-St Onge, Wu-Palmer...

CINQUIEME PARTIE : APPLICATIONS PRATIQUES POUR LE REFERENCEMENT

Savoir sur quelles requêtes se positionner

Optimiser son contenu pour le référencement

Générer du contenu automatiquement

SIXIEME PARTIE : APPLICATIONS PRATIQUES POUR LE KM ET LES OR

Elaboration d'un filtre suivant le profil de recherche de l'utilisateur

Lemmatisation et utilisation de thésaurus et de bases lexicales

Méthodologie de création d'une ontologie

Les méthodes d'expansion de requête

Trouver les documents pertinents

Catégoriser des pages en fonction de leur contenu

Applications sophistiquées d'extraction de données sur le web

Créer un système de FAQ automatique à la Ask Jeeves

ANNEXES

LIENS UTILES

BIBLIOGRAPHIE

Lien vers le commentaire
Partager sur d’autres sites

  • 4 semaines plus tard...

J'ai mis en ligne dans la partie publication une version pdf des slides de l'intervention que j'ai faite au à l'occasion de Netmarketing 2004 avec François Bourdoncle, PDG d'Exalead, sur la sémantique appliquée et la linguistique statistique dans les moteurs de recherche, et ses utilisations dans le référencement.

J'en profite au passage pour remercier François Bourdoncle pour son indulgence , et pour avoir su parfaitement illustrer par des exemples tirés du fonctionnement d'Exalead, des propos qui sinon seraient restés parfaitement abscons et abstraits.

Slides Netmarketing 2004

Lien vers le commentaire
Partager sur d’autres sites

J'ai mis en ligne le deuxième article de la série...

J'y parle notamment de la future application de clustering annoncée par Google, qu'ils disent être basée sur "l'abstraction des entités nommées".

Pour l'instant c'est un truc qui va atterrir dans les prochaines semaines dans la zone "Google Labs", mais ce serait la première "vraie" apparition de la sémantique appliquée dans l'index de Google.

Pour l'instant, la sémantique, on la trouve "autour", dans les adwords ;)

La sémantique appliquée et les outils de recherche [2/6]

Lien vers le commentaire
Partager sur d’autres sites

A noter que ces slides sont (plus ou moins) un condensé des différentes publications de Cariboo sur les moteurs de recherche.

Ils (elles ?) peuvent paraitre complexes, rébarbatives pour certains, mais tous les moteurs de recherche tendent à se rapprocher de cet objectif :

Fournir à l'internaute des résultats de recherche pertinents.

Jusqu'à maintenant, Google nous avait fourni des résultats assez simplistes. Les recherches se faisaient sur tous les termes de la requète, en mode 'FINDALL'. Ainsi : On prend une page, si elle contient tous les termes de la requète, alors elle est considérée comme pertinente pour Google. Ensuite, pour trier les résultats, Google appliquait son algo.

Cette méthode a ses limites, et c'est de celles ci dont il est question. Quelles sont les méthodes qui permettent de s'affranchir de ces limites.

Par exemple :

Un internaute cherche "cheval". Google nous renvoie les pages de résultat contenant cheval. Mais pas celles contenant : chevaux (si cheval n'est pas contenu dans la page. Pourtant, l'internaute qui cherche 'cheval' est assurément intéressé par les pages contenant 'chevaux'. Elles sont probablement aussi pertinentes que celles contenant 'cheval'.

C'est un exemple, mais il en existe beaucoup d'autres.

1/ Les nouveaux moteurs de recherche doivent, pour surpasser Google, prendre en compte ces éléments. Ces nouveaux moteurs ne réussiront pas à toucher la suprématie de Google en faisant pareil que lui. il leur faut faire mieux, et ces méthodes le leur permet.

2/ Les internautes ont des exigences, il faut les combler. De plus en plus, on cherche à avoir non seulement des résultats pertinents, mais aussi des résultats personnalisés, qui correspondent non seulement à la requète, mais aussi à ce qu'en pense l'internaute. Autrement dit, on veut que le moteur comprenne ce que l'on veut dire, et pas seulement ce que l'on a écrit. Quand on cherche un forum de qualité, traitant du webmastering, de l'accessibilité, de la prog., avec des publications, des annuaires, et... Bref, c'est difficile à décrire à un moteur. Et il n'est pas évident que tous ces termes paraissent 'exactement' sur au moins une page de ce forum (quoique maitenant, c'est chose faite :D ) pourtant, on aimerait bien que ce moteur nous renvoie des pages correspondant à ce que l'on a voulu, pas uniquement des pages contenant ces termes.

Le problème de la pertinence de Google vient aussi du fait que son algo est connu. Tant qu'un algo est confidentiel, il est 'protégé'. Le jour où les internautes savent placer 'facilement' des pages dans cet algo, le risque est que les résultats soient manipulés. Il n'y a rien de pire, pour un moteur, que la manipulation de pages. C'est ce qui rend caduque l'algo.

Ce point n'est pas abordé dans les articles, ni dans les slides, mais si trop de personnes savent comment faire pour placer des pages, savent comment manipuler l'index, alors il devient d'autant difficile de 'calculer' la pertinence d'une page.

Les nouveaux algos, dont une excellente démonstration peut être vue sur le site exalead : http://beta.exalead.com/search sont tellement complexes qu'ils sera plutot hardu d'essayer de les manipuler.

Par contre, pour ceux qui comprendront suffisamment ces nouveaux index, ils auront .... de l'or entre les mains ;)

Anonymus.

Lien vers le commentaire
Partager sur d’autres sites

  • 4 semaines plus tard...
  • 10 months later...

Je remonte un sujet un peu ancien, mais je voudrais savoir :

Les moteurs de recherche Google, Yahoo, MSN utilisent-ils les analyses thématiques ou la sémantique linguistique dans leurs algorithmes de classement ???

Lien vers le commentaire
Partager sur d’autres sites

Peut-être devrais tu poser la question à Jean Veronis, spécialiste du domaine, mais en gros il me semble que la plupart des moteurs favorisent l'analyse statistique à l'analyse véritablement sémantique. Microsoft bosserait cependant sur la linguistique (Apport d'Office) et Exalead le fait également (Recherche en orthographe approché et phonétique).

Lien vers le commentaire
Partager sur d’autres sites

Je me pose la question pour 1 raison :

A l'instar du TrusRank, l'analyse thématique appliquée au PageRank me parait une bonne voie pour le rendre plus "qualitatif".

Le TrustRank est une analyse qualitative. Elle est présentée comme un outil de lutte anti-spam. Mais il semble à mon cerveau fatigué que ce type de démarche semi-automatique conviendrait tout autant à une analyse thématique des backlinks.

On sélectionne des sites faisant autorité sur un sujet (les sites de référence). On peut alors considérer que les backlinks propagent la popularité/autorité/confiance dans la thématique en question... non ?

Le TrustRank, un simple filtre anti-spam ?

Modifié par Magicoyo
Lien vers le commentaire
Partager sur d’autres sites

Le Trustrank n'est, définitivement, qu'un filtre antispam. Mais un filtre antispam qui permet une pénalisation non binaire (je vire ou je laisse), en attribuant une note de confiance qui pondère les résultats obtenus par un calcul classique de popularité par les liens (pagerank).

J'ai dit : pondère. Pas remplace.

Le Trustrank est un rank de plus. Il ne remplace pas le pagerank.

Pour le reste, la plupart des moteurs utilisent de la linguistique statistique avant tout, et peu de choses issues de l'analyse sémantique. Mais certains outils de Google (ex: Adsense) sont des applications directes d'analyse sémantique, à partir d'ontologie, et de clustering.

Mais on ne les retrouve pas de manière visibles dans le fonctionnement de Google classique.

Sauf que la thématique des sites est peut-être utilisée par Google : l'information est à sa disposition, l'ontologie d'Oingo (celle derrière Adsense) est utilisée pour "classer" tous les sites, qu'ils disposent d'adsense ou non, dans une thématique donnée.

Par ailleurs, les pagerank thématiques existent, sont calculés aussi pour chaque site, chaque page, ce qui permet le fonctionnement en "Personalized search". Ce qui veut dire aussi que chaque page se voit doter d'une importance "thématique" dans Google. Est-ce exploité dans l'algorithme général ? Mystère. En tout cas, l'info existe, elle peut être utilisée.

Lien vers le commentaire
Partager sur d’autres sites

Par ailleurs, les pagerank thématiques existent, sont calculés aussi pour chaque site, chaque page, ce qui permet le fonctionnement en "Personalized search". Ce qui veut dire aussi que chaque page se voit doter d'une importance "thématique" dans Google. Est-ce exploité dans l'algorithme général ? Mystère. En tout cas, l'info existe, elle peut être utilisée.

<{POST_SNAPBACK}>

T'es sur de ça ?

Ca me parait un traitement de données énorme, en plus de ceux que GG doit déjà réaliser.

Tout le monde semble d'accord pour considérer que un lien provenant d'une page à la thématique proche de la page a une valeur supérieure. Sur quoi s'appuie cette croyance ?

Lien vers le commentaire
Partager sur d’autres sites

En tout cas, l'info existe, elle peut être utilisée

Il me semble que c'est ce qui est utilisé dans l'interface adwords pour trouver des éditeurs adsense en tapant un mot-clé (A verifier).

Lien vers le commentaire
Partager sur d’autres sites

T'es sur de ça ?

On ne peut plus sûr. "Google Personalized Search" est la reprise directe des travaux des chercheurs de Stanford qui ont créé la startup Kaltix, rachetée par Google.

Cela fonctionne à partir de deux innovations qu'ils ont introduite : le calcul du Pagerank au niveau des blocs, et non plus au niveau des pages, ce qui a permis notamment le rolling update, et qui permet, combiné avec l'approximation quadratique, une accélération de la convergence et un calcul au moins dix fois plus rapide qu'avant.

Et le Pagerank thématique : dans l'article initial, ils calculaient 16 pageranks différents + le pagerank "normal".

Tout le monde semble d'accord pour considérer que un lien provenant d'une page à la thématique proche de la page a une valeur supérieure. Sur quoi s'appuie cette croyance ?

Plusieurs choses :

D'abord, historiquement, la croyance dans l'intégration de l'algorithme Hilltop dans Google. Hilltop est un Trustrank calculé dans le mauvais sens, c'est d'ailleurs pour cela que cela marchait moyen, une fois étendu à l'ensemble du web ;)

Une phrase lâchée à plusieurs reprises par Matt Cutts : "créez des liens vers des sites "authority", c'est une bonne chose pour vos sites".

Et d'une manière générale, toute une série de rumeurs qui courrent dans le monde des référenceurs anglo saxons.

Il me semble que c'est ce qui est utilisé dans l'interface adwords pour trouver des éditeurs adsense en tapant un mot-clé (A verifier).

Non, ce qui est utilisé, c'est l'ontologie "Oingo" et la classification des sites en fonction de cette ontologie. C'est l'autre source d'infos thématiques.

Pour info, il n'est pas utile d'avoir une infinité de pageranks thématiques pour gérer une recherche personnalisée. On stocke quelques pageranks, et la pondération entre les pageranks est changée d'une sous thématique à une autre.

Lien vers le commentaire
Partager sur d’autres sites

créez des liens vers des sites "authority

Ca je trouve ça vraiment c*n ce discours de la part d'un moteur. Les moteurs sont censés analyser le sens et l'intention derrière les contenus et les structures de liens, pas influencer ces derniers.

Le risque : plein de sites vont faire des liens vers des sites considérés comme des autorités PAR GOOGLE au lieu de faire des liens vers les sites qu'il estiment être des autorités du fait de leur propre jugement...

Non, ce qui est utilisé, c'est l'ontologie "Oingo" et la classification des sites en fonction de cette ontologie. C'est l'autre source d'infos thématiques

Merci pour ces précisions :)

Lien vers le commentaire
Partager sur d’autres sites

Ok. Je prends.

...et qui permet, combiné avec l'approximation quadratique, une accélération de la convergence et un calcul au moins dix fois plus rapide qu'avant.

:P Tu m'a séché là... me dire ça, à moi qui suis une bille en math...

Que ceux pour qui cette fin de phrase à un sens lèvent le doigt ! :whistling:

Lien vers le commentaire
Partager sur d’autres sites

Ca je trouve ça vraiment c*n ce discours de la part d'un moteur. Les moteurs sont censés analyser le sens et l'intention derrière les contenus et les structures de liens, pas influencer ces derniers.

Le risque : plein de sites vont faire des liens vers des sites considérés comme des autorités PAR GOOGLE au lieu de faire des liens vers les sites qu'il estiment être des autorités du fait de leur propre jugement...

Merci pour ces précisions :)

<{POST_SNAPBACK}>

C'est vrai que c'est un peu tordu. C'est pas la peine de faire des filtres anti-spam hyper fins, afin d'orienter le travail des webmasters-referenceurs vers un "web plus naturel"... et de lacher des recommandations d'optimisation derrière.

Lien vers le commentaire
Partager sur d’autres sites

Une phrase lâchée à plusieurs reprises par Matt Cutts : "créez des liens vers des sites "authority", c'est une bonne chose pour vos sites".

<{POST_SNAPBACK}>

Une petite précision, pour qu'on sois bien d'accord : des sites "authority" ça veut bien dire des sites de référence (popularité/pertinence/"trustability") dans leur thématique, non ? Pas seulement les sites gouvernementaux et les gros portails ?

Lien vers le commentaire
Partager sur d’autres sites

bonjour,

je suis désolée de m'incruster dans votre discussion, mais j'ai lu le sujet et je ne suis pas sûre de bien tout comprendre. :wacko:

Il faudrait pour être bien vu par google faire des liens vers des gros sites connus? Je croyais que seuls les liens qui pointaient vers nos sites avaient de l'importance... je me trompe?

Lien vers le commentaire
Partager sur d’autres sites

bonjour,

je suis désolée de m'incruster dans votre discussion, mais j'ai lu le sujet et je ne suis pas sûre de bien tout comprendre. :wacko:

Il faudrait pour être bien vu par google faire des liens vers des gros sites connus? Je croyais que seuls les liens qui pointaient vers nos sites avaient de l'importance... je me trompe?

<{POST_SNAPBACK}>

Il ne faut pas confondre classement et pagerank. Les liens sortants font perdre du pagerank mais son bon pour le classement.

Lien vers le commentaire
Partager sur d’autres sites

Une petite précision, pour qu'on sois bien d'accord : des sites "authority" ça veut bien dire des sites de référence (popularité/pertinence/"trustability") dans leur thématique, non ? Pas seulement les sites gouvernementaux et les gros portails ?

C'est bien le problème... Matt ne le précise pas :(

Mais il s'agit probablement de sites faisant autorité dans un domaine, pas de sites "authority" au sens de l'algo HITS, ni de sites d'autorités gouvernementales.

l'approximation quadratique, une accélération de la convergence et un calcul au moins dix fois plus rapide qu'avant.

En plus ce que je dis est approximatif :blush: : le terme exact est "extrapolation quadratique".

Lien vers le commentaire
Partager sur d’autres sites

Ok. Je prends.

:P Tu m'a séché là... me dire ça, à moi qui suis une bille en math...

Que ceux pour qui cette fin de phrase à un sens lèvent le doigt !  :whistling:

<{POST_SNAPBACK}>

L'idée est celle-ci :

Au lieu de faire tous les calculs nécessaires, on ne fais qu'un calcul sur 2, et on 'estime' la taille des autres.

Des statistiques, en somme, mais appliquées au page rank.

( Cependant, je n'en suis pas bien sûr.. )

Lien vers le commentaire
Partager sur d’autres sites

  • 5 months later...

Bonjour.

Encore une fois je me permet de demander si la publication complète des articles est prévue ou non ^_^

Ou même leur publication partielle (peu d'interet pour tout un chacun, mais il y aura certainement des pistes de recherche interessantes à explorer).

Modifié par Dagnan
Lien vers le commentaire
Partager sur d’autres sites

C'est prévu, mais mon temps est sérieusement entamé ces temps ci par mes activités professionnelles (en plein boom) et par ma vie personnelle.

Promis, je m'y remet avant l'été...

Lien vers le commentaire
Partager sur d’autres sites

  • 5 months later...

Après une (trop ?) longue interruption, je reprend la publication de mon cycle d'articles sur les statistiques linguistiques et la sémantique dans les moteurs de recherche.

La troisième partie aborde le "web sémantique", un projet qui nous éloigne un peu de notre sujet de base (la sémantique) même si c'est clairement un sujet cousin.

L'objectif de cette série de quatre articles est de faire un point sur ce dossier, de manière à éviter des confusions avec les autres outils sémantiques utilisés dans les outils de recherche.

Le premier article que je publie ce soir commence par un rappel des concepts du "web sémantique"

Web Sémantique : Définition et principes

Dans les trois articles suivants, nous aborderons :

- les "fausses amies", à savoir les balises sémantiques, souvent confondues avec le web sémantique

- le débat sur le caractère utopique ou au contraire visionnaire du web sémantique

- enfin, nous concluerons en parlant de l'utilisation possible (ou non ) du web sémantique par les différents outils de recherche

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...