Webfountain d’IBM

Au cours des douze mois écoulés, de nombreux webmasters ont vu apparaître dans les logs de leurs sites webs un crawler baptisé « almaden », qui visitait leur site de manière irrégulière. Ce crawler avait été identifié facilement comme émanant du célèbre laboratoire Almaden d’IBM, l’un des centres les plus prolifiques sur la technologie des moteurs de recherche… Mais tout le monde s’interrogeait sur les « expériences » menées dans ces bâtiments couronnant une colline bucolique située dans la banlieue sud de San Jose : que diable préparait IBM ? Un nouveau moteur de recherche grand public ? Ou une énième étude scientifique sur l’évolution de la Toile ? Et pourquoi un tel regain d’activité, après deux ans de discrétion absolue ?

Webfountain : un produit « business on demand ».

Depuis fin septembre 2003, le pot aux roses est dévoilé : IBM a décidé de commercialiser le produit de quatre ans de recherche sous la marque « Webfountain ». Ce nouveau produit de « big blue » n’est pas un moteur de recherche destiné au grand public, mais une technologie s’intégrant dans la nouvelle philosophie commerciale d’IBM : le « business on demand ». Il s’agit en fait d’un outil révolutionnaire, destiné aux grandes entreprises, capable d’extraire automatiquement des données de la Toile, à des fins d’étude de marché ou d’intelligence économique. La première utilisation pratique de Webfountain a été de surveiller la Toile pour savoir à l’avance quel allait être le succès d’un album lancé par une grande maison de disques. Webfountain a servi à détecter toutes les discussions, annonces et autres commentaires d’internautes avant même la sortie du disque, permettant ainsi de déterminer le nombre de CD à graver dès la sortie, et d’adapter le budget de promotion en tenant compte du « bouche à oreille » créé naturellement autour du disque.

Mais les possibilités de la technologie Webfountain sont très vastes, et l’intelligence économique ou le « knowledge management » (gestion de la connaissance) n’en sont que l’une des applications envisageables. Car Webfountain représente des avancées majeures dans quatre domaines important :
- un crawler efficace, capable selon IBM d’aspirer 100% de la toile en 32 heures !
- des algorithmes d’évaluation innovants, s’appuyant sur la théorie des graphes et les évolution de HITS
- une technologie nouvelle de « balisage sémantique », permettant d’identifier le contenu de n’importe quelle page du web
- une nouvelle architecture de moteur totalement ouverte, permettant de faire évoluer facilement les capacités du moteur

Une approche globale et sociologique de la Toile

Webfountain est avant tout une application directe des recherches de l’un des plus brillants chercheurs d’Almaden : Andrew Tomkins. Ce britannique de 34 ans est l’un des experts les plus reconnus dans le domaine de l’analyse de contenu et de la collecte de données en approche heuristique.

Tomkins est l’auteur d’un article qui avait été particulièrement remarqué en 1999 : « The Web as a graph », une approche de la Toile s’appuyant sur la théorie des graphes… et illustré par le fameux schéma en « noeud papillon » qui a connu un succès certain dans les médias à l’époque [1].

L’approche de l’équipe d’IBM, dès cette époque là, s’est révélée originale… Elle est typique de la philosophie d’IBM, mélange de pragmatisme et de confiance dans l’intérêt économique à moyen terme de la recherche fondamentale. L’équipe composée d’Andrew Tomkins, Ravar Kumar, Prabhakar Raghavan, Sridhar Rajagopalan, a d’abord commencé par essayer de comprendre ce qu’était le web. Et avant tout de l’étudier en gardant à l’esprit que les pages webs sont des productions humaines. En cela, les travaux d’Almaden se rapprochent de ceux du PARC (le laboratoire de Xerox) et s’opposent à ceux de l’université de Stanford (qui a produit la technologie utilisée par Google) ou ceux du NTNU (l’Université Norvégienne qui a développé la technologie Fast).

Tomkins a commencé par s’intéresser à l’utilisation des résultats des disciplines sociométriques pour discerner des structures dans la Toile : applicabilité de la loi de Pareto [2], de Zipf [3], de Lotka [4], etc…

Puis, Tomkins et son équipe ont analysé la structure du web, aboutissant au fameux schéma en forme de noeud papillon, et se sont mis en quête d’une théorie décrivant la structure observée. L’idée étant de développer un modèle s’appuyant sur la théorie mathématique des graphes orientés. Mais avec pour objectif que le modèle soit simple, qu’il corresponde aux observations, qu’il donne des indications sur la distribution du web en thématiques séparées et révèle l’existence de communautés. Le modèle devait notamment respecter une distribution Zipfienne, et rendre compte des observations, montrant que le web était à la fois localement dense mais globalement clairsemé…

Tomkins est parvenu assez rapidement à un modèle opérationnel…

Identifier des communautés, repérer des tendances, observer la diffusion de l’information

Robert Morris, le patron du laboratoire Almaden s’est rendu compte assez vite de l’intérêt des travaux de l’équipe de Tomkins. En peu de temps, il fut démontré que les applications de ces découvertes théoriques étaient fort diverses, et révolutionnaires. La possibilité d’identifier des communautés sur le web, et les personnes qui les composent, fut la première découverte. Elle s’est concrétisée dans le projet « Campfire », un système opérationnel destiné à détecter l’existence telles communautés. L’observation de ces mêmes communautés permettait ensuite, par de nouvelles techniques d’analyse de contenu inventées par Tomkins, de repérer de nouvelles tendances, de collecter des informations stratégiques sur les opinions et avis exprimés par les internautes. Bref, un outil nouveau d’intelligence économique se dessinait.

IBM a fortement investi dans le projet

Le projet Webfountain a aussitôt bénéficié d’investissements considérables de la part d’IBM, autant sur le plan financier (on estime que le projet a coûté 100 million de dollars en frais de développement), qu’en moyens humains. Plusieurs autres équipes du laboratoire Almaden se sont joint au projet, pour transformer les idées de Tomkins en quelque chose d’opérationnel et de commercialisable. [5]. L’un des premiers utilisateurs historiques de Webfountain a été … la société IBM elle-même, qui a pu tester les possibilités fascinantes de cet outil pour comprendre son environnement concurrentiel, son image et celle de ses produits. Mais il semble aussi que les plus gros clients d’IBM ait servi de cobayes dans la phase de finalisation commerciale du produit.

Le savoir faire technique d’IBM se retrouve aussi dans l’architecture du moteur… Alors que Google est réputé travailler avec 15000 PC de base, IBM annonce travailler avec un cluster de 1000 PC travaillant en parallèle pour alimenter une base d’un ordre de grandeur de plusieurs petaoctets [6]. IBM a su tirer parti de la puissance des machines récentes pour « diminuer » l’échelle de l’infrastructure nécessaire, ainsi que de ses connaissances techniques uniques dans la réalisation d’unité de stockage de grandes dimensions.

Quel modèle économique pour Webfountain ?

Visiblement, IBM cherche à développer le produit Webfountain dans trois directions :
- le partenariat économique avec des sociétés spécialisées dans le Knowledge Management ou l’intelligence économique. Le premier accord de ce type a été annoncé en septembre 2003, avec la société FACTIVA
- le service : IBM proposant des services de type « business on demand » à des sociétés soucieuses d’effectuer des recherches ponctuelles ou régulières en utilisant les ressources d’IBM
- la mise en place de solutions d’infrastructure complètes au profit d’entreprises désireuses de se doter de leur propre moteur de recherche.

Bref, il ne faut pas s’attendre, contrairement à ce qui a été annoncé ici ou là, à ce que Webfountain vienne concurrencer Google demain matin. IBM reste fidèle à sa vocation « B to B »… Et la technologie Webfountain est conçue avant tout pour discerner des structures dans la Toile, repérer des tendances, pas pour faire un moteur de recherche grand public.

Du moins pour l’instant : car IBM a clairement acquis les moyens technologiques de lancer quand ils le voudront un moteur de recherche « grand public » extrêmement performant…

Philippe YONNET

Bibliographie

Le site du projet webfountain

RedBook d’IBM sur le produit webfountain

The Web as a graph – Ravi Kumar Prabhakar Raghavan Sridhar Rajagopalan D. Sivakumar Andrew Tomkins Eli Upfaly

L’algorithme HITS et le projet CLEVER


[1] voir l’article sur l’algorithme HITS et le projet CLEVER dans la partie publications

[2] la loi de Pareto décrit une distribution classique dans les organisations humaines : c’est la fameuse loi des 80/20% (80% des richesses appartiennent à 20% de la population). D’une manière plus générale, les organisations sont souvent régies par une loi de puissance, c’est à dire qu’une minorité d’acteurs produit une majorité d’éléments (ou en termes mathématiques, que la distribution est caractérisée par une densité de la forme f(x)=Bx-b)

[3] popularisée sous le nom de loi du moindre effort : la loi de Zipf décrit notamment la distribution de l’apparition des mots dans un texte rédigé dans n’importe quelle langue de la terre

[4] La loi de Lotka est caractéristique des distributions observées sur l’apparition des citations dans les publications scientifiques : la même distribution s’observe dans la distribution des liens entre les pages web

[5] C’est ainsi que Jenny Edwards, une spécialiste australienne des algorithmes informatiques, s’est jointe à l’équipe pendant un an pour finaliser un nouveau crawler baptisé justement Webfountain, et qui semble avoir donné son nom à l’ensemble du projet, le crawler ayant été rebaptisé « Seeker » dans le projet final. C’est le fameux robot observé par les webmasters du monde entier depuis deux ans…

[6] 1 petaoctets=1000 teraoctets=100000 gigaoctets