Version complète: sur le forum Webmaster Hub : Cycle d'articles sur la sémantique appliquée
Webmaster Hub > Promotion de Sites Internet > Techniques de Référencement
Cariboo
J'entame la publication aujourd'hui d'une série de 6 articles (plus une annexe bibliographique) sur l'état de l'art en sémantique et linguistique appliquée dans les moteurs de recherche et le référencement...

Je publie aujourd'hui le premier article :

INTRODUCTION A LA SEMANTIQUE ET A LA LINGUISTIQUE STATISTIQUE

Ainsi que la partie "Annexes" avec les références bibliographiques ...

LES ANNEXES

Et je communique, pour ceux qui veulent suivre le feuilleton, les prochains articles, qui seront publiés d'ici la fin du mois.

DEUXIEME PARTIE : LA SEMANTIQUE ET LES OUTILS DE RECHERCHE

1. Quel rôle joue aujourd'hui la sémantique et la linguistique dans les moteurs de recherche grand public ?

2. Les moteurs de recherche actuels utilisant la sémantique

3. La sémantique : comment révolutionner demain la recherche d'information sur le web

TROISIEME PARTIE : L'AUTRE SEMANTIQUE - LE WEB SEMANTIQUE ET LA RECHERCHE D'INFORMATION

1. Le Web Sémantique : principes et applications

On parle beaucoup de sémantique entre webmasters, mais le terme recouvre plusieurs notions très éloignées.

2. Le Web Sémantique : une utopie condamnée ou une révolution en marche ?

Le Web Sémantique à ses militants inconditionnels, mais aussi ses pourfendeurs et ses détracteurs. Quels sont les arguments des uns et des autres ?

3. L'exemple de SEMTAG : le balisage sémantique automatique est possible
Créer un outil permettant d'ajouter automatiquement les bonnes balises dans des documents non balisés permet d'envisager de nouvelles applications pour le web sémantique

QUATRIEME PARTIE : METHODES LINGUISTIQUES ET SEMANTIQUES DANS LES SYSTEMES D'EXTRACTION D'INFORMATION

- Méthodes Statistiques
- Analyse Morphologique
- Analyse Syntaxique
- Evaluation de pertinence : modèle vectoriel contre modèle booléen
- L'expansion de requête
- Le retour de pertinence
- Les thesaurus
- L'approche inférentielle de la recherche : algorithmes bayesiens
- Le problème de la désambiguation
- Les ontologies et les taxonomies
- Les relations sémantiques
- Théorie probabiliste de l'information de Shannon
- Désambiguation probabiliste
- Le clustering

CINQUIEME PARTIE : APERCU DES ALGORITHMES ET OUTILS MATHEMATIQUES

1. Densité de mots clés, et modèles vectoriels de Salton

2. Les mesures de similarités

indice de co-occurence
ratio EF
cosinus de Salton
coefficient de Dice
les mesures de similarité conceptuelles : Resnik, Jiang-Conrath, Hirst-St Onge, Wu-Palmer...

CINQUIEME PARTIE : APPLICATIONS PRATIQUES POUR LE REFERENCEMENT

Savoir sur quelles requêtes se positionner
Optimiser son contenu pour le référencement
Générer du contenu automatiquement

SIXIEME PARTIE : APPLICATIONS PRATIQUES POUR LE KM ET LES OR

Elaboration d'un filtre suivant le profil de recherche de l'utilisateur
Lemmatisation et utilisation de thésaurus et de bases lexicales
Méthodologie de création d'une ontologie
Les méthodes d'expansion de requête
Trouver les documents pertinents
Catégoriser des pages en fonction de leur contenu
Applications sophistiquées d'extraction de données sur le web
Créer un système de FAQ automatique à la Ask Jeeves

ANNEXES

LIENS UTILES

BIBLIOGRAPHIE
Cariboo
J'ai mis en ligne dans la partie publication une version pdf des slides de l'intervention que j'ai faite au à l'occasion de Netmarketing 2004 avec François Bourdoncle, PDG d'Exalead, sur la sémantique appliquée et la linguistique statistique dans les moteurs de recherche, et ses utilisations dans le référencement.

J'en profite au passage pour remercier François Bourdoncle pour son indulgence , et pour avoir su parfaitement illustrer par des exemples tirés du fonctionnement d'Exalead, des propos qui sinon seraient restés parfaitement abscons et abstraits.

Slides Netmarketing 2004
Cariboo
J'ai mis en ligne le deuxième article de la série...

J'y parle notamment de la future application de clustering annoncée par Google, qu'ils disent être basée sur "l'abstraction des entités nommées".

Pour l'instant c'est un truc qui va atterrir dans les prochaines semaines dans la zone "Google Labs", mais ce serait la première "vraie" apparition de la sémantique appliquée dans l'index de Google.

Pour l'instant, la sémantique, on la trouve "autour", dans les adwords wink.gif

La sémantique appliquée et les outils de recherche [2/6]
Anonymus
A noter que ces slides sont (plus ou moins) un condensé des différentes publications de Cariboo sur les moteurs de recherche.

Ils (elles ?) peuvent paraitre complexes, rébarbatives pour certains, mais tous les moteurs de recherche tendent à se rapprocher de cet objectif :
Fournir à l'internaute des résultats de recherche pertinents.

Jusqu'à maintenant, Google nous avait fourni des résultats assez simplistes. Les recherches se faisaient sur tous les termes de la requète, en mode 'FINDALL'. Ainsi : On prend une page, si elle contient tous les termes de la requète, alors elle est considérée comme pertinente pour Google. Ensuite, pour trier les résultats, Google appliquait son algo.

Cette méthode a ses limites, et c'est de celles ci dont il est question. Quelles sont les méthodes qui permettent de s'affranchir de ces limites.
Par exemple :
Un internaute cherche "cheval". Google nous renvoie les pages de résultat contenant cheval. Mais pas celles contenant : chevaux (si cheval n'est pas contenu dans la page. Pourtant, l'internaute qui cherche 'cheval' est assurément intéressé par les pages contenant 'chevaux'. Elles sont probablement aussi pertinentes que celles contenant 'cheval'.

C'est un exemple, mais il en existe beaucoup d'autres.

1/ Les nouveaux moteurs de recherche doivent, pour surpasser Google, prendre en compte ces éléments. Ces nouveaux moteurs ne réussiront pas à toucher la suprématie de Google en faisant pareil que lui. il leur faut faire mieux, et ces méthodes le leur permet.

2/ Les internautes ont des exigences, il faut les combler. De plus en plus, on cherche à avoir non seulement des résultats pertinents, mais aussi des résultats personnalisés, qui correspondent non seulement à la requète, mais aussi à ce qu'en pense l'internaute. Autrement dit, on veut que le moteur comprenne ce que l'on veut dire, et pas seulement ce que l'on a écrit. Quand on cherche un forum de qualité, traitant du webmastering, de l'accessibilité, de la prog., avec des publications, des annuaires, et... Bref, c'est difficile à décrire à un moteur. Et il n'est pas évident que tous ces termes paraissent 'exactement' sur au moins une page de ce forum (quoique maitenant, c'est chose faite biggrin.gif ) pourtant, on aimerait bien que ce moteur nous renvoie des pages correspondant à ce que l'on a voulu, pas uniquement des pages contenant ces termes.

Le problème de la pertinence de Google vient aussi du fait que son algo est connu. Tant qu'un algo est confidentiel, il est 'protégé'. Le jour où les internautes savent placer 'facilement' des pages dans cet algo, le risque est que les résultats soient manipulés. Il n'y a rien de pire, pour un moteur, que la manipulation de pages. C'est ce qui rend caduque l'algo.
Ce point n'est pas abordé dans les articles, ni dans les slides, mais si trop de personnes savent comment faire pour placer des pages, savent comment manipuler l'index, alors il devient d'autant difficile de 'calculer' la pertinence d'une page.

Les nouveaux algos, dont une excellente démonstration peut être vue sur le site exalead : http://beta.exalead.com/search sont tellement complexes qu'ils sera plutot hardu d'essayer de les manipuler.
Par contre, pour ceux qui comprendront suffisamment ces nouveaux index, ils auront .... de l'or entre les mains wink.gif

Anonymus.
vanquish
Je peux proposer ma page ?
Introduction à l'XHTML et à la notion de sémantique
Magicoyo
Je remonte un sujet un peu ancien, mais je voudrais savoir :

Les moteurs de recherche Google, Yahoo, MSN utilisent-ils les analyses thématiques ou la sémantique linguistique dans leurs algorithmes de classement ???
Sebastien
Peut-être devrais tu poser la question à Jean Veronis, spécialiste du domaine, mais en gros il me semble que la plupart des moteurs favorisent l'analyse statistique à l'analyse véritablement sémantique. Microsoft bosserait cependant sur la linguistique (Apport d'Office) et Exalead le fait également (Recherche en orthographe approché et phonétique).
Magicoyo
Je me pose la question pour 1 raison :

A l'instar du TrusRank, l'analyse thématique appliquée au PageRank me parait une bonne voie pour le rendre plus "qualitatif".


Le TrustRank est une analyse qualitative. Elle est présentée comme un outil de lutte anti-spam. Mais il semble à mon cerveau fatigué que ce type de démarche semi-automatique conviendrait tout autant à une analyse thématique des backlinks.
On sélectionne des sites faisant autorité sur un sujet (les sites de référence). On peut alors considérer que les backlinks propagent la popularité/autorité/confiance dans la thématique en question... non ?


Le TrustRank, un simple filtre anti-spam ?
Cariboo
Le Trustrank n'est, définitivement, qu'un filtre antispam. Mais un filtre antispam qui permet une pénalisation non binaire (je vire ou je laisse), en attribuant une note de confiance qui pondère les résultats obtenus par un calcul classique de popularité par les liens (pagerank).

J'ai dit : pondère. Pas remplace.

Le Trustrank est un rank de plus. Il ne remplace pas le pagerank.

Pour le reste, la plupart des moteurs utilisent de la linguistique statistique avant tout, et peu de choses issues de l'analyse sémantique. Mais certains outils de Google (ex: Adsense) sont des applications directes d'analyse sémantique, à partir d'ontologie, et de clustering.

Mais on ne les retrouve pas de manière visibles dans le fonctionnement de Google classique.

Sauf que la thématique des sites est peut-être utilisée par Google : l'information est à sa disposition, l'ontologie d'Oingo (celle derrière Adsense) est utilisée pour "classer" tous les sites, qu'ils disposent d'adsense ou non, dans une thématique donnée.

Par ailleurs, les pagerank thématiques existent, sont calculés aussi pour chaque site, chaque page, ce qui permet le fonctionnement en "Personalized search". Ce qui veut dire aussi que chaque page se voit doter d'une importance "thématique" dans Google. Est-ce exploité dans l'algorithme général ? Mystère. En tout cas, l'info existe, elle peut être utilisée.
Magicoyo
CITATION(Cariboo @ jeudi 01 décembre 2005, 20h34)
Par ailleurs, les pagerank thématiques existent, sont calculés aussi pour chaque site, chaque page, ce qui permet le fonctionnement en "Personalized search". Ce qui veut dire aussi que chaque page se voit doter d'une importance "thématique" dans Google. Est-ce exploité dans l'algorithme général ? Mystère. En tout cas, l'info existe, elle peut être utilisée.
*


T'es sur de ça ?
Ca me parait un traitement de données énorme, en plus de ceux que GG doit déjà réaliser.
Tout le monde semble d'accord pour considérer que un lien provenant d'une page à la thématique proche de la page a une valeur supérieure. Sur quoi s'appuie cette croyance ?
Sebastien
CITATION
En tout cas, l'info existe, elle peut être utilisée


Il me semble que c'est ce qui est utilisé dans l'interface adwords pour trouver des éditeurs adsense en tapant un mot-clé (A verifier).
Cariboo
CITATION
T'es sur de ça ?


On ne peut plus sûr. "Google Personalized Search" est la reprise directe des travaux des chercheurs de Stanford qui ont créé la startup Kaltix, rachetée par Google.

Cela fonctionne à partir de deux innovations qu'ils ont introduite : le calcul du Pagerank au niveau des blocs, et non plus au niveau des pages, ce qui a permis notamment le rolling update, et qui permet, combiné avec l'approximation quadratique, une accélération de la convergence et un calcul au moins dix fois plus rapide qu'avant.

Et le Pagerank thématique : dans l'article initial, ils calculaient 16 pageranks différents + le pagerank "normal".

CITATION
Tout le monde semble d'accord pour considérer que un lien provenant d'une page à la thématique proche de la page a une valeur supérieure. Sur quoi s'appuie cette croyance ?


Plusieurs choses :

D'abord, historiquement, la croyance dans l'intégration de l'algorithme Hilltop dans Google. Hilltop est un Trustrank calculé dans le mauvais sens, c'est d'ailleurs pour cela que cela marchait moyen, une fois étendu à l'ensemble du web wink.gif

Une phrase lâchée à plusieurs reprises par Matt Cutts : "créez des liens vers des sites "authority", c'est une bonne chose pour vos sites".

Et d'une manière générale, toute une série de rumeurs qui courrent dans le monde des référenceurs anglo saxons.

CITATION
Il me semble que c'est ce qui est utilisé dans l'interface adwords pour trouver des éditeurs adsense en tapant un mot-clé (A verifier).


Non, ce qui est utilisé, c'est l'ontologie "Oingo" et la classification des sites en fonction de cette ontologie. C'est l'autre source d'infos thématiques.

Pour info, il n'est pas utile d'avoir une infinité de pageranks thématiques pour gérer une recherche personnalisée. On stocke quelques pageranks, et la pondération entre les pageranks est changée d'une sous thématique à une autre.
Sebastien
CITATION
créez des liens vers des sites "authority


Ca je trouve ça vraiment c*n ce discours de la part d'un moteur. Les moteurs sont censés analyser le sens et l'intention derrière les contenus et les structures de liens, pas influencer ces derniers.

Le risque : plein de sites vont faire des liens vers des sites considérés comme des autorités PAR GOOGLE au lieu de faire des liens vers les sites qu'il estiment être des autorités du fait de leur propre jugement...

CITATION
Non, ce qui est utilisé, c'est l'ontologie "Oingo" et la classification des sites en fonction de cette ontologie. C'est l'autre source d'infos thématiques


Merci pour ces précisions smile.gif
Magicoyo
Ok. Je prends.



CITATION(Cariboo @ vendredi 02 décembre 2005, 10h09)
...et qui permet, combiné avec l'approximation quadratique, une accélération de la convergence et un calcul au moins dix fois plus rapide qu'avant.

tongue.gif Tu m'a séché là... me dire ça, à moi qui suis une bille en math...

Que ceux pour qui cette fin de phrase à un sens lèvent le doigt ! whistling.gif
Magicoyo
CITATION(Sebastien @ vendredi 02 décembre 2005, 10h17)
Ca je trouve ça vraiment c*n ce discours de la part d'un moteur. Les moteurs sont censés analyser le sens et l'intention derrière les contenus et les structures de liens, pas influencer ces derniers.

Le risque : plein de sites vont faire des liens vers des sites considérés comme des autorités PAR GOOGLE au lieu de faire des liens vers les sites qu'il estiment être des autorités du fait de leur propre jugement...
Merci pour ces précisions smile.gif
*


C'est vrai que c'est un peu tordu. C'est pas la peine de faire des filtres anti-spam hyper fins, afin d'orienter le travail des webmasters-referenceurs vers un "web plus naturel"... et de lacher des recommandations d'optimisation derrière.
Magicoyo
CITATION(Cariboo @ vendredi 02 décembre 2005, 10h09)
Une phrase lâchée à plusieurs reprises par Matt Cutts : "créez des liens vers des sites "authority", c'est une bonne chose pour vos sites".
*


Une petite précision, pour qu'on sois bien d'accord : des sites "authority" ça veut bien dire des sites de référence (popularité/pertinence/"trustability") dans leur thématique, non ? Pas seulement les sites gouvernementaux et les gros portails ?
Lynxia
bonjour,
je suis désolée de m'incruster dans votre discussion, mais j'ai lu le sujet et je ne suis pas sûre de bien tout comprendre. wacko.gif

Il faudrait pour être bien vu par google faire des liens vers des gros sites connus? Je croyais que seuls les liens qui pointaient vers nos sites avaient de l'importance... je me trompe?
Magicoyo
C'est ce qui se dit ici ou là... et ça n'est pas illogique.
Urban
CITATION(Lynxia @ vendredi 02 décembre 2005, 15h01)
bonjour,
je suis désolée de m'incruster dans votre discussion, mais j'ai lu le sujet et je ne suis pas sûre de bien tout comprendre. wacko.gif

Il faudrait pour être bien vu par google faire des liens vers des gros sites connus? Je croyais que seuls les liens qui pointaient vers nos sites avaient de l'importance... je me trompe?
*


Il ne faut pas confondre classement et pagerank. Les liens sortants font perdre du pagerank mais son bon pour le classement.
Cariboo
CITATION
Une petite précision, pour qu'on sois bien d'accord : des sites "authority" ça veut bien dire des sites de référence (popularité/pertinence/"trustability") dans leur thématique, non ? Pas seulement les sites gouvernementaux et les gros portails ?


C'est bien le problème... Matt ne le précise pas sad.gif

Mais il s'agit probablement de sites faisant autorité dans un domaine, pas de sites "authority" au sens de l'algo HITS, ni de sites d'autorités gouvernementales.

CITATION
l'approximation quadratique, une accélération de la convergence et un calcul au moins dix fois plus rapide qu'avant.


En plus ce que je dis est approximatif blush.gif : le terme exact est "extrapolation quadratique".
Anonymus
CITATION(Magicoyo @ vendredi 02 décembre 2005, 10h20)
Ok. Je prends.
tongue.gif Tu m'a séché là... me dire ça, à moi qui suis une bille en math...

Que ceux pour qui cette fin de phrase à un sens lèvent le doigt !  whistling.gif
*

L'idée est celle-ci :
Au lieu de faire tous les calculs nécessaires, on ne fais qu'un calcul sur 2, et on 'estime' la taille des autres.

Des statistiques, en somme, mais appliquées au page rank.

( Cependant, je n'en suis pas bien sûr.. )
Magicoyo
Du pifomètre scientifique en somme tongue.gif
Dagnan
Bonjour.

Encore une fois je me permet de demander si la publication complète des articles est prévue ou non ^_^

Ou même leur publication partielle (peu d'interet pour tout un chacun, mais il y aura certainement des pistes de recherche interessantes à explorer).
Cariboo
C'est prévu, mais mon temps est sérieusement entamé ces temps ci par mes activités professionnelles (en plein boom) et par ma vie personnelle.

Promis, je m'y remet avant l'été...
Cariboo
Après une (trop ?) longue interruption, je reprend la publication de mon cycle d'articles sur les statistiques linguistiques et la sémantique dans les moteurs de recherche.

La troisième partie aborde le "web sémantique", un projet qui nous éloigne un peu de notre sujet de base (la sémantique) même si c'est clairement un sujet cousin.

L'objectif de cette série de quatre articles est de faire un point sur ce dossier, de manière à éviter des confusions avec les autres outils sémantiques utilisés dans les outils de recherche.

Le premier article que je publie ce soir commence par un rappel des concepts du "web sémantique"

Web Sémantique : Définition et principes

Dans les trois articles suivants, nous aborderons :
- les "fausses amies", à savoir les balises sémantiques, souvent confondues avec le web sémantique
- le débat sur le caractère utopique ou au contraire visionnaire du web sémantique
- enfin, nous concluerons en parlant de l'utilisation possible (ou non ) du web sémantique par les différents outils de recherche
Dan
Salut Philippe,

Que dire, si ce n'est que la lecture de tes excellents articles nous a manqué ?
Cela fait plaisir de voir que tu a repris du collier !

Bravo à nouveau pour cette approche claire du Web Sémantique a_thumbsup_20.gif

Dan
Cariboo
Je publie ce soir le volet n°2 du cycle d'articles sur le web sémantique.

[2 : Les fausses amies, les balises sémantiques

Si j'aborde le sujet du web sémantique, c'est que je trouve cela très intéressant mais aussi par volonté de clarifier les choses en distinguant les outils "sémantiques" en RI et le web sémantique.

Là, parler des balises sémantiques, c'est là même chose, mais à propos du web sémantique
1. C'est intéressant
2. Il est important d'expliquer que "respecter la sémantique des pages" ce n'est pas faire du "web sémantique"

En fait, cela n'a rien à voir, et c'est pour cela que je les appelles les "fausses amies". En fait c'est le terme "sémantique" qui est un faux-ami (cela ressemble à un mot dont on connait le sens, mais cela n'a pas en réalité le même sens).

Mais n'y voyez rien de péjoratif.

Par ailleurs, j'aborde un sujet parfois abordé sous un angle soit "prosélyte normes W3C" soit "anti normes, à bas les règles" :
un code valide, un code respectueux de la "sémantique", améliore-t'il le référencement.

La réponse est oui, mais pour des raisons plus viles que celles avancées parfois.
Sebastien
Je viens de lire les 2 articles wink.gif C'est vrai que je suis toujours géné de parler de balises sémantiques, mais c'est le terme consacré. D'une certaine manières elles sont quand même liée au "sens" du contenu, mais au sens de sa nature et non au signifié. C'est pourquoi je parle des fois de "niveaux de sémantique", le balisage "sémantique" étant le plus bas niveau : dire qu'un titre est un titre, un item de liste un item etc. C'est déjà un peu plus de sens par rapport à une version en texte brut.

PS : http://s.billard.free.fr/referencement/ind...rs-de-recherche
Raphael
Bon idée cet article. A priori très juste et objectif.
Je vais lire ça de plus près wink.gif
Cariboo
Je publie aujourd'hui le 3e volet de l'article sur le web sémantique.

Le web sémantique : utopie condamnée ou révolution en marche ?

J'aborde donc la polémique qui fait rage autour du web sémantique. Certains considèrent en effet comme totalement utopique l'idée selon laquelle un jour tous les webmasters coderont leurs informations à la manière du web sémantique, et comme encore plus utopique l'idée qu'ils ajouteront des métadonnées "correctes".

D'autres pensent que c'est avenir du web.

Cela tourne clairement à la querelle de chapelles. Une querelle peut-être dépassée, à l'heure ou des applications commerciales du web sémantique apparaissent dans les entreprises ! Au grand dam de certains de ses promoteurs, d'ailleurs wink.gif
edeffi
Bonjour,

Je poste très peu whistling.gif mais je suis un lecteur attentif des posteurs ici a_thumbsup_20.gif
Tout d'abord un énorme merci Cariboo pour ces articles, qui sont un vrai bonheur à lire et qui révèlent un talent de pédagogue peu commun à mon goût.

CITATION
Pour le moment, les grands acteurs du World Wide Web semblent peu désireux de faire avancer les choses. ....et même chez Google, qui semble se satisfaire du web actuel.

Cette réflexion (en fait je me l'était faite avant ce dernier article) me conduit au raisonnement suivant:

Je me rend compte de plus en plus que je n'utilise plus les moteurs de recherche de la même manière, en fait depuis mon accès à l'adsl ma découverte de sites (liens) intéressants se fait par l'intermédiaire des communautées que je fréquente (dont le Hub wink.gif ).
Sur google je ne recherche plus que des produits (c'est un grand catalogue) ou des données très spécifiques. dans le cas de données très spécifiques j'essaie d'utiliser la "sémantique"* en tapant des requêtes à rallonge (4 mots min.).

je me demande:
1) si je suis le seul à faire ce constat
2) si les moteurs ne vont pas être obligés d'inciter à la sémantique, si ils veulent garder leur fonction (ce dont je ne suis pas sûr du tout)

++

* J'entend par sémantique dans ce contexte: donner un vrai sens à ma recherche, càd:
mes mots clés (que je désire trouver) + les termes proches dans le sens que je cherche
Régis
CITATION(edeffi @ samedi 21 octobre 2006, 21h27) *
(...)Je me rend compte de plus en plus que je n'utilise plus les moteurs de recherche de la même manière, en fait depuis mon accès à l'adsl ma découverte de sites (liens) intéressants se fait par l'intermédiaire des communautées que je fréquente (...)
Bonjour 'edeffi',

Pour aller dans ton sens, il y a quelques temps, j'ai lu sur un blog (mais je ne me souviens plus lequel...) une intervention qui disait en substance : il est probable qu'à l'avenir les annuaires spécialisés (et les communautés) soient de plus de plus utilisés pour les recherches...
edeffi
Re'

Merci Régis wink.gif , je me sens moins seul tongue.gif (si tu retrouves le blog je veux bien le lien en mp)

CITATION("moi même")
... si ils veulent garder leur fonction (ce dont je ne suis pas sûr du tout)

je veux dire par là:
je ne suis pas sûr que la priorité de développement des sociétés qui produisent des moteurs (google surtout) soit le développement d'un moteur de recherche ultra pertinent.

++
Cariboo
CITATION
Pour le moment, les grands acteurs du World Wide Web semblent peu désireux de faire avancer les choses. ....et même chez Google, qui semble se satisfaire du web actuel.


J'avoue que cette formulation est "influencée" par le contexte. Tant qu'il n'y aura pas d'outils de manipulation de RDF et d'OWL en standard dans IE et Windows, il y'a peu de chances que le web sémantique fasse une percée fantastique. C'est le sens du début de la phrase, en appelant un chat un chat.

Quand je dis que Google semble se satisfaire du web actuel... Cette phrase laisse supposer que Google peut changer le world wide web. C'est de plus en plus vrai, et c'est la volonté déclarée de Google de faire évoluer le web dans une direction qui l'arrange. Mais dans le même temps, l'influence de Google a en réalité des limites certaines, et Google est bien obligé de faire avec le web tel qu'il est !

J'aurais donc dû écrire que Google est bien obligé de travailler sur une version du web qui n'est pas le web sémantique.

Maintenant, je pense qu'il est faux de dire que Google se satisfait du web tel qu'il est dans l'absolu. S'ils peuvent obtenir quelques modifications utiles, ils ne diront pas non.

Il est clair par contre qu'ils ne croient pas dans le web sémantique. Non pas d'ailleurs qu'ils ne trouvent pas l'idée intéressante, c'est juste qu'ils ne croient pas que demain, suffisamment de sites seront "sémantiques" pour que cela mérite qu'on étudie de nouvelles manières de chercher dans ces sites.

Qui plus est, leur expérience du spam les conduit à penser que, même si tous les sites sont stockés sous formes de triplets RDF, ils devront continuer à extraire des infos du contenu plutôt que de faire confiance aux métadonnées... L'approche de Google est pragmatique et ne fait pas confiance à la nature humaine. Celle de Berners Lee est incontestablement plus optimiste sur la possibilité de voir certaines choses changer...

Ce sont deux visions de la société fondamentalement différentes en fait. C'est pour cela que les "clans" ont autant de mal à se comprendre.
Ceci est une version "bas débit" de notre forum. Pour voir la version complète avec plus d'information, la mise en page et les images, veuillez cliquer ici.