Cuill veut surpasser Google grâce à l’analyse de données sémantiques

Depuis quelques semaines, un buzz impressionnant se développe autour du projet Cuill [1], un moteur de recherche encore au stade « furtif ». [2]. Mais nous sommes loin du battage organisé autour de Megaglobe ou de Powerset : si l’on parle autant de Cuill comme un « Google Killer » c’est parce que les fondateurs sont des personnes que le monde de l’information retrieval prend très, très au sérieux.

Le projet Cuill

Cuill est une startup fondée par Tom Costello, Anna Paterson et Russel Power en 2007. Ils ont investi plusieurs millions de dollars sur leur fonds personnels pour lancer le projet et ont réussi à trouver également l’appui financier de fonds de capital risque comme Greylock Partners qui aurait ajouté 4 millions de dollars.

La société compterait 10 à 15 salariés, et est basée à Menlo Park [3]]

La dream team derrière le projet Cuill

Tom Costello et Anna Paterson sont en fait mari et femme, et ont déjà créé ensemble le moteur de recherche Xift en 1999. Ils se sont connus à l’Université de Stanford.

JPEG - 5.3 ko
Tom Costello à Stanford

Tom Costello a reçu son Ph.D. à Stanford en 1996, et a travaillé comment enseignant chercheur dans cette Université jusqu’en 1999. Il a notamment étudié certains aspects de l’intelligence artificielle comme la simulation des raisonnements de type « bon sens » (common sense reasoning). Il a également beaucoup travaillé à cette époque (et par la suite ?) pour des agences gouvernementales comme la DARPA (bases de connaissances), des outils de planification pour l’US Air Force et du data mining pour … la CIA.


Xift
Il participe en tant que Directeur technique à l’aventure « Xift » en 1999, l’entreprise étant dirigée par Anna Paterson. Xift était un moteur de recherche original, inventé pour pallier aux limites des téléphones portables de l’époque. Il catégorisait automatiquement les pages du web, et en créait des résumés qui permettaient de rechercher des pages depuis un téléphone wap, sans avoir à les afficher directement. Le projet fut abandonné au début des années 2000.

De son côté, Anna Paterson a été recrutée par Google, et a participé à plusieurs projets stratégiques comme le nouvel index de Google baptisé « TeraGoogle » (dont l’implémentation explique l’apparition de l’index surnommé BigDaddy fin 2005 début 2006).

JPEG - 7.3 ko
Anna Paterson à Stanford

Anna Paterson a également été mentionnée comme ayant participé à des projets comme Google Base ou des travaux sur la pertinence des publicités adsense.

Elle est par ailleurs à l’origine de l’architecture du moteur de recherche de « archive.org » (WayBackMachine), baptisé « Recall ». L’index de ce moteur est considéré comme le plus gros au monde (plus de 30 milliards de pages).

Le troisième membre du trio fondateur les a rejoint après la création de la société. Il s’agit de Russel Power, un jeune ex-googler titulaire d’un Masters d’Informatique de l’Université de Washington, qui a travaillé pendant deux ans sur le projet de détection automatique de Spam de Google, ainsi que sur l’algorithme de classement des pages web.

Les technologies probablement utilisées dans Cuill

Un index et une architecture optimisée

Anna Paterson est l’architecte du nouvel index de Google déployé début 2006 : TeraGoogle [4]. Russel Power était l’un des directeurs techniques en charge de l’infrastructure de serveurs utilisée par le nouvel index. Autant dire que l’on a affaire à des gens qui savent non seulement indexer des milliards de page, mais encore le faire vite et efficacement…

Cuill a annoncé à ses investisseurs qu’ils étaient capables, avec leur technologie, de construire un index de la taille de celui exploité par Google avec dix fois moins de ressources.

Il ne serait pas surprenant que l’on retrouve dans Cuill quelques unes des idées à la base de TeraGoogle…

Google n’a rien révélé sur son nouvel index, mais les brevets déposés par Anna Paterson sont par contre très intéressants à étudier. On y découvre par exemple :

- qu’elle a énormément travaillé sur un index dont les entrées ne sont plus des mots-clés, mais sur des « phrases », en fait des expressions composées de deux, trois… jusqu’à cinq mots. Pas moins de cinq brevets déposés sur ce sujet [5]. Ce système a longtemps été réputé infaisable : si on prend un corpus en langue anglaise, d’une taille respectable, on arrive assez rapidement à créer un index comportant environ 200 000 termes uniques. Créer un index comportant 200 000 entrées ne pose guère de problèmes aujourd’hui, par contre, indexer des phrases composée d’une permutation de cinq termes aboutit à 3,2×10^26 possibilités. Anna Paterson résout le problème en identifiant ce qu’elle appelle les « bonnes » phrases, en fait des expressions toutes faites détectées par l’analyse de la matrice des cooccurences dans le corpus.

- qu’elle a décrit dans un autre brevet une architecture capable d’indexer 100 milliards de pages [6]. L’idée de base est ici de créer deux index, avec deux structures très différentes. Je ne rentre pas dans le détail du système, décrit dans le brevet : voir ci-dessous la liste des brevets déposés par Anna Paterson depuis qu’elle travaille chez Google.

Twiceler, le bot de Cuill
L’un des indices du caractère « sérieux » de ce moteur, c’est le nombre de webmasters qui ont détecté le spider Twiceler dans leurs logs. Voilà enfin un moteur furtif qui crawle effectivement le web comme un furieux, y compris nos sites francophones.

Pour avoir la liste des IP de Twiceler :

http://www.cuill.com/twiceler/robot.html

L’analyse textuelle et la catégorisation automatique

Anna Paterson a travaillé sur le système Adsense, qui s’appuie sur des technologies « sémantiques » pour arriver à associer à des portions d’une page (celle en regard des AdSense) une thématique.

Tom Costello (aidé de son épouse) a été l’un des pionniers avec Xift de l’application du clustering (catégorisation automatique) et de la création de résumés automatiques…

Cuill contiendra-t’il des applications de type « analyse textuelle » ? Impossible à dire. Ils annoncent qu’ils s’appuient sur l’analyse de données sémantiques, ce qui ne veut rien dire, et tout dire.

Le balisage sémantique automatique

L’une des idées que l’on retrouve à la fois dans les travaux de Tom Costello et d’Anna Paterson, c’est la possibilité de créer des « pages augmentées » avant l’indexation dans un moteur.


Webfountain
C’est notamment l’idée que Tom Costello a introduite dans la première version de Webfountain, dont il a créé le prototype. Webfountain contenait un parser spécial, baptisé SemTag, capable de parcourir les pages, de reconnaître des noms de personnes, des numéros de téléphone, des marques, des adresses [7], et en fonction du contexte, d’associer une valeur permettant de les identifier. Ce système est une application directe du web sémantique [8].

Dans la pratique, sur une page sur lequel apparait le nom de Tony Parker, on ajoutera une balise associant ce nom soit à un célèbre basketteur, soit à un plombier du Bronx.

De tels systèmes sont déjà à l’oeuvre dans des moteurs comme Hakia, où l’on voit clairement que la requête Tony Parker ne renvoie que des pages sur le basketteur, correctement catégorisées…

Ce système de balisage sémantique permet de créer des moteurs dont les réponses semblent bien plus pertinentes dès lors qu’elles portent sur des requêtes associées à des entités nommées, ce qui est extrêmement fréquent.

Il ne serait donc pas étonnant de voir apparaître dans Cuill des fonctionnalités s’appuyant sur un balisage sémantique automatique.

Une approche quantitative, contrairement à Powerset

Les dirigeants de Cuill ont clairement indiqué leur scepticisme à propos de l’approche de Powerset (l’analyse du langage naturel). Le moteur Cuill semble s’appuyer sur des concepts peut-être innovants, mais dans la droite ligne des méthodes qui on fait leurs preuves dans la construction de moteurs de recherche efficaces : les statistiques sur le contenu des pages, le calcul matriciel, et la force brute.

Quel avenir pour un tel moteur ?

A l’instar du Google des débuts, il semble que l’aspect « business » ne soit pas au centre des préoccupations des dirigeants de Cuill. Ils se concentrent sur les aspects techniques, remettant à plus tard la réflexion sur le modèle économique viable pour un tel moteur.

Dans ces conditions, il est difficile de savoir à l’heure actuelle si les fondateurs de Cuill veulent vraiment concurrencer Google, ou s’ils veulent réaliser une démonstration en vraie grandeur de leur savoir faire, en vue d’un rachat par un Yahoo ou par un … Google. La rumeur, relayée par TechCrunch US, prétend que Google s’est ému de l’activité de ses ex-googlers et a déjà proposé de les racheter.

Pour l’instant, le moteur est furtif, et aucune date de lancement officielle n’ a été lâchée. Le plus simple est d’attendre ce lancement pour se faire une idée du caractère novateur ou non de ce moteur.

Philippe YONNET

Directeur du Pôle Experts de la société de conseil en référencement naturel @position

BIBLIOGRAPHIE

Articles de presse

Techcrunch Us
Blog de John Battelle
Article de Anna Paterson
Article décrivant Recall

Quelques uns des brevets déposés par Anna Paterson

LIENS UTILES
Le site internet de Cuill


[1] selon les fondateurs, il faut prononcer ce nom « cool » et non « kweele »

[2] Un moteur « furtif » (stealth) est un moteur en activité, notamment par son crawler qui a été détecté par des webmasters, mais dont personne (sauf quelques initiés/invités/bêta testeurs) n’a accès à l’interface d’interrogation et encore moins à ses résultats. Ces derniers mois, un grand nombre de moteurs sont apparus, certains étant sortis du mode furtif, d’autres non. Voir aussi l’article 2007 l’annnée des moteurs furtifs

[3] Près de l’Université de Stanford en Californie

[4] C’est l’index plus connu sous le sobriquet « Big Daddy »

[5] Google utilise-t’il ce système à l’heure actuelle ? Mystère…

[6] La bataille des index entre Google et Yahoo, dont Jean Véronis s’est fait le pourfendeur, s’est terminée par un aveu chez Google : en comptant les urls trouvées mais jamais indexées, les pages en double, on arrive à 20 ou 30 milliards. Mais en réalité, l’index de Google semble ne jamais avoir dépassé 6 à 8 milliards de pages avant 2006. Il serait passé à 20 milliards avec TeraGoogle (info ou intox)

[7] C’est ce que l’on appelle dans le jargon de l’IR des « entités nommées »

[8] On trouvera dans cet article un développement sur ces concepts : http://www.webmaster-hub.com/public…