|
Site Web : Pnambique Directeur du Pôle Experts de la société @position http://www.aposition.com Articles de l'auteur : La détection du Link Spam : un challenge pour les moteurs [3/4] La détection du Link Spam : un challenge pour les moteurs [2/4] La détection du Link Spam : un challenge pour les moteurs [Bibl.] La détection du Link Spam : un challenge pour les moteurs [1/4] Cuill veut surpasser Google grâce à l’analyse de données sémantiques 2007 : l’année des moteurs furtifs L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.4] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.3] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.2] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.1] Joachim Kreibich (Seekport) : pour nous, un moteur de recherche de qualité doit tenir compte des particularismes linguistiques nationaux, voire régionaux Une tentative de définition du spamdexing Google Base dévoilé ! Les concepts de la POO La programmation objet : qu’est-ce que c’est ? à quoi ça sert ? Gregory Olivier "MSN Search cherche à établir un véritable dialogue avec les webmasters et les référenceurs" Direct Answers from Encarta MSN Search utilise-t’il l’analyse au niveau des blocs ? Spyware : les méthodes pour s’en débarasser Michael James, de la société Mirago "Nous misons sur nos partenaires pour développer notre visibilité" La sémantique appliquée et les outils de recherche [2/6] Linguistique statistique et sémantique appliquée : outil de pertinence pour les moteurs, de KM et de référencement ANALYSE THEMATIQUE (4/4) par le Pr E. Garcia ANALYSE THEMATIQUE (3/4) par le Pr E. Garcia Applications des outils sémantiques au référencement et aux moteurs de recherche Sémantique appliquée : Liens et références bibliographiques ANALYSE THEMATIQUE (2/4) par le Pr E. Garcia ANALYSE THEMATIQUE (1/4) par le Pr E. Garcia CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [3] Mon premier programme en PHP (3e Partie) CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2] CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [1] Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin) Quelques pistes pour comprendre le nouvel algorithme de Google FOOXX, le moteur futé venu d’Allemagne Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ? Mooter, un moteur de recherche innovant venu d’Australie Les techniques évoluées d’indexation dans les moteurs de recherche (2e partie) Visibilité et stratégies de développement d’audience sur le Web Les techniques évoluées d’indexation dans les moteurs de recherche L’algorithme HITS et le projet CLEVER (deuxième partie) L’algorithme HITS et le projet CLEVER La structure du web est en forme de "noeud papillon" Webfountain d’IBM Vers un moteur de recherche sensible au contexte (1ère partie) Vers un moteur de recherche sensible au contexte (2ème partie) Vers un moteur de recherche sensible au contexte (3ème partie) Droit d’auteur et site web Droit d’auteur et site web (2e Partie) Droit des producteurs de bases de données (législation française) Tester correctement variables et valeurs en php Mon premier programme en PHP (2e Partie) Les nouveautés de la version 5 de PHP Les origines du PHP Mon premier programme en PHP Pourquoi choisir le PHP pour réaliser des pages dynamiques ? |
Vers un moteur de recherche sensible au contexte (3ème partie)
Vers un moteur de recherche sensible au contexte (3ème partie)De tels moteurs peuvent-ils voir le jour ?2 novembre 2003, par CaribooDans la deuxième partie de cet article, nous avons présenté les nouvelles méthodes imaginées par les chercheurs de Stanford pour réaliser un moteur de recherche thématique. Ces méthodes ont elle un intérêt pratique ? Verra-t’on apparaître des moteurs les utilisant prochainement ? La création de moteurs de recherche thématiques est d’ores et déjà possibleLa méthode du Pagerank sensible à la thématique est d’ores et déjà déployable sur un moteur de recherche grand public. Lorsque la méthode a été décrite pour la première fois, en 2002, la puissance de calcul nécessaire rendait le projet difficile à réaliser (mais pas irréalisable). Depuis, la puissance de calcul des machines s’est accru de manière sensible, et des progrès théoriques majeurs ont été effectués pour accélérer la vitesse de convergence des algorithmes de calcul du PageRank. Rien ne s’oppose donc à la création d’un moteur de recherche sensible à la thématique de recherche utilisant cette technologie. Et encore moins à la création d’un moteur de recherche thématique, beaucoup plus facile encore à réaliser. La piste du "pagerank modulaire" semble par contre plus stérile en ce qui concerne les applications pratiques. Google a-t’il un projet semblable dans ses cartons ?Aucune information n’a réellement filtré sur ce sujet pour le moment. Une seule chose est certaine : les chercheurs de Stanford qui ont imaginé les solutions les plus prometteuses travaillent à présent au sein de Kaltix, devenue filiale de Google... Compte-tenu du secret qui règne autour des technologies réellement utilisées par Google, on est hélas réduit à faire des suppositions, voire à se lancer dans des spéculations. Ainsi, il semble que Google ait déjà choisi d’utiliser la méthode du "block rank". Ce qui expliquerait la possibilité pour Google d’entrer des nouvelles pages dans son index, tout en leur attribuant une position définitive dans les pages de résultats (ce qui laisse soupçonner un calcul du PR à la volée). La deconnexion clairement apparente depuis deux mois entre les GoogleDance et les calculs de PR plaide également pour un changement de ce genre. Compte tenu de l’avantage stratégique que donnerait une méthode de recherche sensible au contexte à la firme créée par Page et Brin, il y’a fort à parier que les gens de Kaltix aideront prochainement Google à sortir une innovation de ce genre. Mais si l’adoption de l’algorithme du blockrank se confirme, cela risque de compliquer les choses. En effet, l’utilisation du blockrank pour créer des pagerank personnalisés n’était encore qu’au stade de l’idée il y’a quelques mois, et on peut supposer que l’application pratique est autrement plus délicate que celle du "Topic sensitive pagerank". Les difficultés à résoudre sont essentiellement de l’ordre de l’acquisition d’expérience, pour savoir comment déterminer les coefficients donnant les résultats les plus pertinents. Une googlebarre chargée de communiquer le contexte au moteur ?L’un des principaux écueils à surmonter si l’on veut réaliser un moteur de recherche sensible au contexte performant, c’est la protection des données de l’utilisateur. En effet, si dans certains cas, la requête seule permettra de déterminer la thématique de la recherche, il arrivera fréquemment que celle-ci soit ambigüe. Dans ce cas, la connaissance du contexte doit être étendue, soit aux requêtes précédemment effectuées, voire même aux habitudes de surf de l’internaute Ces informations n’étant pas anodines, il est dans la pratique difficile d’imaginer d’envoyer au moteur l’historique de surf de l’internaute. Mais nos ex chercheurs de Stanford ont de la ressource : ils ont imaginé de créer une application client capable de faire le travail d’évaluation des thématiques de prédilection de l’internaute en local sur sa machine. Le client de recherche n’aura plus dans ce cas à envoyer au moteur que les éléments sur ces thématiques de prédilection, sans avoir à communiquer d’autres infos plus confidentielles. L’internaute aurait toute possibilité de plus d’accéder et de modifier les caractéristiques de son profil ainsi constitué. Et si ces techniques étaient déjà dépassées ?Ces techniques destinées à créer des moteurs de recherche sensibles au contexte semblent constituer l’avenir des moteurs de recherche. Mais elles reposent toutes sur des évolutions de l’algorithme du Pagerank. Et elles ne permettent pas de créer des moteurs réellement intelligents. Il s’agit toujours essentiellemnt de systèmes utilisant la force brute de calcul combinés avec un zeste d’astuce et de savoir faire. Ces techniques ont pour intérêt d’être facilement réutilisables par Google (et pour cause). Mais l’autre voie, lancée par IBM, vient d’aboutir à un concept d’un genre nouveau : le système WebFountain. Cette technologie, qui fait appel à des techniques de reconnaissance sémantique sophistiquées combinées à des algorithmes originaux (héritiers de HITS et du projet CLEVER), semble permettre de développer des moteurs beaucoup plus efficaces et intelligents qu’un Google... Mais ceci est une autre histoire... Philippe YONNET Bibliographie :Sur le pagerank :
Principaux articles publiés par les créateurs de la société Kaltix Les travaux de Glen Jeh et Jennifer Widom Scaling Personalized Web Search - Glen Jeh et Jennifer Widom /février 2002 SimRank : A Measure of Structural-Context Similarity / Octobre 2001
|
|
||
|