|
Site Web : Pnambique Directeur du Pôle Experts de la société @position http://www.aposition.com Articles de l'auteur : La détection du Link Spam : un challenge pour les moteurs [3/4] La détection du Link Spam : un challenge pour les moteurs [2/4] La détection du Link Spam : un challenge pour les moteurs [Bibl.] La détection du Link Spam : un challenge pour les moteurs [1/4] Cuill veut surpasser Google grâce à l’analyse de données sémantiques 2007 : l’année des moteurs furtifs L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.4] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.3] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.2] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.1] Joachim Kreibich (Seekport) : pour nous, un moteur de recherche de qualité doit tenir compte des particularismes linguistiques nationaux, voire régionaux Une tentative de définition du spamdexing Google Base dévoilé ! Les concepts de la POO La programmation objet : qu’est-ce que c’est ? à quoi ça sert ? Gregory Olivier "MSN Search cherche à établir un véritable dialogue avec les webmasters et les référenceurs" Direct Answers from Encarta MSN Search utilise-t’il l’analyse au niveau des blocs ? Spyware : les méthodes pour s’en débarasser Michael James, de la société Mirago "Nous misons sur nos partenaires pour développer notre visibilité" La sémantique appliquée et les outils de recherche [2/6] Linguistique statistique et sémantique appliquée : outil de pertinence pour les moteurs, de KM et de référencement ANALYSE THEMATIQUE (4/4) par le Pr E. Garcia ANALYSE THEMATIQUE (3/4) par le Pr E. Garcia Applications des outils sémantiques au référencement et aux moteurs de recherche Sémantique appliquée : Liens et références bibliographiques ANALYSE THEMATIQUE (2/4) par le Pr E. Garcia ANALYSE THEMATIQUE (1/4) par le Pr E. Garcia CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [3] Mon premier programme en PHP (3e Partie) CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2] CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [1] Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin) Quelques pistes pour comprendre le nouvel algorithme de Google FOOXX, le moteur futé venu d’Allemagne Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ? Mooter, un moteur de recherche innovant venu d’Australie Les techniques évoluées d’indexation dans les moteurs de recherche (2e partie) Visibilité et stratégies de développement d’audience sur le Web Les techniques évoluées d’indexation dans les moteurs de recherche L’algorithme HITS et le projet CLEVER (deuxième partie) L’algorithme HITS et le projet CLEVER La structure du web est en forme de "noeud papillon" Webfountain d’IBM Vers un moteur de recherche sensible au contexte (1ère partie) Vers un moteur de recherche sensible au contexte (2ème partie) Vers un moteur de recherche sensible au contexte (3ème partie) Droit d’auteur et site web Droit d’auteur et site web (2e Partie) Droit des producteurs de bases de données (législation française) Tester correctement variables et valeurs en php Mon premier programme en PHP (2e Partie) Les nouveautés de la version 5 de PHP Les origines du PHP Mon premier programme en PHP Pourquoi choisir le PHP pour réaliser des pages dynamiques ? |
Webfountain d’IBM
Webfountain d’IBMUn moteur de recherche révolutionnaire16 novembre 2003, par CaribooAu cours des douze mois écoulés, de nombreux webmasters ont vu apparaître dans les logs de leurs sites webs un crawler baptisé "almaden", qui visitait leur site de manière irrégulière. Ce crawler avait été identifié facilement comme émanant du célèbre laboratoire Almaden d’IBM, l’un des centres les plus prolifiques sur la technologie des moteurs de recherche... Mais tout le monde s’interrogeait sur les "expériences" menées dans ces bâtiments couronnant une colline bucolique située dans la banlieue sud de San Jose : que diable préparait IBM ? Un nouveau moteur de recherche grand public ? Ou une énième étude scientifique sur l’évolution de la Toile ? Et pourquoi un tel regain d’activité, après deux ans de discrétion absolue ? Webfountain : un produit "business on demand". Depuis fin septembre 2003, le pot aux roses est dévoilé : IBM a décidé de commercialiser le produit de quatre ans de recherche sous la marque "Webfountain". Ce nouveau produit de "big blue" n’est pas un moteur de recherche destiné au grand public, mais une technologie s’intégrant dans la nouvelle philosophie commerciale d’IBM : le "business on demand". Il s’agit en fait d’un outil révolutionnaire, destiné aux grandes entreprises, capable d’extraire automatiquement des données de la Toile, à des fins d’étude de marché ou d’intelligence économique. La première utilisation pratique de Webfountain a été de surveiller la Toile pour savoir à l’avance quel allait être le succès d’un album lancé par une grande maison de disques. Webfountain a servi à détecter toutes les discussions, annonces et autres commentaires d’internautes avant même la sortie du disque, permettant ainsi de déterminer le nombre de CD à graver dès la sortie, et d’adapter le budget de promotion en tenant compte du "bouche à oreille" créé naturellement autour du disque. Mais les possibilités de la technologie Webfountain sont très vastes, et l’intelligence économique ou le "knowledge management" (gestion de la connaissance) n’en sont que l’une des applications envisageables. Car Webfountain représente des avancées majeures dans quatre domaines important :
Une approche globale et sociologique de la Toile Webfountain est avant tout une application directe des recherches de l’un des plus brillants chercheurs d’Almaden : Andrew Tomkins. Ce britannique de 34 ans est l’un des experts les plus reconnus dans le domaine de l’analyse de contenu et de la collecte de données en approche heuristique. Tomkins est l’auteur d’un article qui avait été particulièrement remarqué en 1999 : "The Web as a graph", une approche de la Toile s’appuyant sur la théorie des graphes... et illustré par le fameux schéma en "noeud papillon" qui a connu un succès certain dans les médias à l’époque [1]. L’approche de l’équipe d’IBM, dès cette époque là, s’est révélée originale... Elle est typique de la philosophie d’IBM, mélange de pragmatisme et de confiance dans l’intérêt économique à moyen terme de la recherche fondamentale. L’équipe composée d’Andrew Tomkins, Ravar Kumar, Prabhakar Raghavan, Sridhar Rajagopalan, a d’abord commencé par essayer de comprendre ce qu’était le web. Et avant tout de l’étudier en gardant à l’esprit que les pages webs sont des productions humaines. En cela, les travaux d’Almaden se rapprochent de ceux du PARC (le laboratoire de Xerox) et s’opposent à ceux de l’université de Stanford (qui a produit la technologie utilisée par Google) ou ceux du NTNU (l’Université Norvégienne qui a développé la technologie Fast). Tomkins a commencé par s’intéresser à l’utilisation des résultats des disciplines sociométriques pour discerner des structures dans la Toile : applicabilité de la loi de Pareto [2], de Zipf [3], de Lotka [4], etc... Puis, Tomkins et son équipe ont analysé la structure du web, aboutissant au fameux schéma en forme de noeud papillon, et se sont mis en quête d’une théorie décrivant la structure observée. L’idée étant de développer un modèle s’appuyant sur la théorie mathématique des graphes orientés. Mais avec pour objectif que le modèle soit simple, qu’il corresponde aux observations, qu’il donne des indications sur la distribution du web en thématiques séparées et révèle l’existence de communautés. Le modèle devait notamment respecter une distribution Zipfienne, et rendre compte des observations, montrant que le web était à la fois localement dense mais globalement clairsemé... Tomkins est parvenu assez rapidement à un modèle opérationnel... Identifier des communautés, repérer des tendances, observer la diffusion de l’information Robert Morris, le patron du laboratoire Almaden s’est rendu compte assez vite de l’intérêt des travaux de l’équipe de Tomkins. En peu de temps, il fut démontré que les applications de ces découvertes théoriques étaient fort diverses, et révolutionnaires. La possibilité d’identifier des communautés sur le web, et les personnes qui les composent, fut la première découverte. Elle s’est concrétisée dans le projet "Campfire", un système opérationnel destiné à détecter l’existence telles communautés. L’observation de ces mêmes communautés permettait ensuite, par de nouvelles techniques d’analyse de contenu inventées par Tomkins, de repérer de nouvelles tendances, de collecter des informations stratégiques sur les opinions et avis exprimés par les internautes. Bref, un outil nouveau d’intelligence économique se dessinait. IBM a fortement investi dans le projet Le projet Webfountain a aussitôt bénéficié d’investissements considérables de la part d’IBM, autant sur le plan financier (on estime que le projet a coûté 100 million de dollars en frais de développement), qu’en moyens humains. Plusieurs autres équipes du laboratoire Almaden se sont joint au projet, pour transformer les idées de Tomkins en quelque chose d’opérationnel et de commercialisable. [5]. L’un des premiers utilisateurs historiques de Webfountain a été ... la société IBM elle-même, qui a pu tester les possibilités fascinantes de cet outil pour comprendre son environnement concurrentiel, son image et celle de ses produits. Mais il semble aussi que les plus gros clients d’IBM ait servi de cobayes dans la phase de finalisation commerciale du produit. Le savoir faire technique d’IBM se retrouve aussi dans l’architecture du moteur... Alors que Google est réputé travailler avec 15000 PC de base, IBM annonce travailler avec un cluster de 1000 PC travaillant en parallèle pour alimenter une base d’un ordre de grandeur de plusieurs petaoctets [6]. IBM a su tirer parti de la puissance des machines récentes pour "diminuer" l’échelle de l’infrastructure nécessaire, ainsi que de ses connaissances techniques uniques dans la réalisation d’unité de stockage de grandes dimensions. Quel modèle économique pour Webfountain ? Visiblement, IBM cherche à développer le produit Webfountain dans trois directions :
Bref, il ne faut pas s’attendre, contrairement à ce qui a été annoncé ici ou là, à ce que Webfountain vienne concurrencer Google demain matin. IBM reste fidèle à sa vocation "B to B"... Et la technologie Webfountain est conçue avant tout pour discerner des structures dans la Toile, repérer des tendances, pas pour faire un moteur de recherche grand public. Du moins pour l’instant : car IBM a clairement acquis les moyens technologiques de lancer quand ils le voudront un moteur de recherche "grand public" extrêmement performant... Philippe YONNET Bibliographie RedBook d’IBM sur le produit webfountain L’algorithme HITS et le projet CLEVER [1] voir l’article sur l’algorithme HITS et le projet CLEVER dans la partie publications [2] la loi de Pareto décrit une distribution classique dans les organisations humaines : c’est la fameuse loi des 80/20% (80% des richesses appartiennent à 20% de la population). D’une manière plus générale, les organisations sont souvent régies par une loi de puissance, c’est à dire qu’une minorité d’acteurs produit une majorité d’éléments (ou en termes mathématiques, que la distribution est caractérisée par une densité de la forme f(x)=Bx-b) [3] popularisée sous le nom de loi du moindre effort : la loi de Zipf décrit notamment la distribution de l’apparition des mots dans un texte rédigé dans n’importe quelle langue de la terre [4] La loi de Lotka est caractéristique des distributions observées sur l’apparition des citations dans les publications scientifiques : la même distribution s’observe dans la distribution des liens entre les pages web [5] C’est ainsi que Jenny Edwards, une spécialiste australienne des algorithmes informatiques, s’est jointe à l’équipe pendant un an pour finaliser un nouveau crawler baptisé justement Webfountain, et qui semble avoir donné son nom à l’ensemble du projet, le crawler ayant été rebaptisé "Seeker" dans le projet final. C’est le fameux robot observé par les webmasters du monde entier depuis deux ans... [6] 1 petaoctets=1000 teraoctets=100000 gigaoctets |
|
||
|