CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [1]

Les programmes Adwords et Adsense sont devenus la principale source de revenus de Google. Petit à petit, à force de les voir associés à Google, on oublie que ces publicités contextuelles sont en réalité une invention d’une société californienne, Applied Semantics, qui a eu une longue histoire avant d’être finalement rachetée par Google.

De Oingo à Applied Semantics

En 1998 (Google venait juste de pousser ses premiers vagissements en sortant de son oeuf en briques de Lego), deux jeunes diplômés de Caltech, Gil Elbaz et Adam Weissmann, créaient un nouveau moteur de recherche : Oingo [1]. Un moteur qui, selon son créateur lui-même, « indexait non plus les mots, mais le sens des mots »…

En novembre 1998, les deux ingénieurs créent la société Oingo Inc pour exploiter leur technologie, Gil Elbaz en devenant le PDG. Le moteur de recherche est présenté au public en octobre 1999, en version bêta, à l’occasion du salon « Fall 1999 Internet World » où il remporte un prix. Le moteur sera lancé officiellement en décembre de cette même année. La société Oingo propose son moteur en marque blanche à de nombreux sites.

GIF - 3.3 ko
Oingo : logo du moteur disparu
« la recherche basée sur le sens »

La technologie Oingo s’appuie sur le travail de huit linguistes qui sont partis du lexique sémantique élaboré à Princeton : Wordnet, pour élaborer une ontologie opérationnelle couplée avec des algorithmes de recherche.
Cette technologie, Elbaz et Weissmann l’avaient baptisée « CIRCA » : Conceptual Information Retrieval and Communication Architecture [2]
L’index Oingo comportait au départ tous les sites listés dans l’ODP.

Le moteur Oingo fonctionnait de la façon suivante :
- l’internaute entrait une requête
- Oingo lui proposait différentes propositions de « sens » pour sa requête
- l’internaute choisissait le sens approprié
- le moteur renvoyait les réponses pertinentes.

En 1999/2000, ce système semblait totalement innovant et prometteur. En 2004, il semble toujours aussi innovant et prometteur…

GIF - 17.3 ko
Oingo : une page du moteur
[image d’archives : ce moteur n’est plus en ligne]

Mais très vite, Gil Elbaz sent le vent tourner : les modèles économiques permettant de rentabiliser son moteur de recherche ne sont pas mûrs. Or la technologie CIRCA permet d’attaquer d’autres marchés, celui des grandes entreprises, et moins vers le grand public.

Oingo lance trois nouveaux produits, en ciblant les entreprises du secteur de la finance, les laboratoires pharmaceutiques et de biotechnologie, et les entreprises de presse :
- Auto-Categorizer, un catégoriseur automatique, fonctionnant sous la forme d’un plug-in dans des logiciels existants de gestion de données, capable de classer n’importe quel document dans une catégorie donnée.
- Page Summarizer, un « résumeur de pages », qui déchiffre le sens des documents, et qui fournit des résumés personnalisables et précis
- Metadata Creator, un « créateur de meta données »

Pour mieux marquer ce changement de stratégies, Oingo Inc change de nom en mai 2001 et devient « Applied Semantics ».

Genèse du programme AdSense

La technologie CIRCA a de nombreuses applications possibles, et ces applications ont été explorées très tôt, bien avant que les dirigeants de la société californienne aient pu se rendre compte de leur potentiel sur le marché.

C’est ainsi qu’un accord de partenariat commercial avec le registrar alldomains.com aboutit dès octobre 2000 au lancement du programme « Domainsense ». Domainsense est capable de proposer à un webmaster à la recherche d’un nom de domaine adapté à son projet de site, une liste de domaines libres en rapport avec ses premières recherches.

En parallèle, l’équipe d’Oingo travaille depuis un an à un produit de publicité ciblé, baptisé Adsense, capable de servir des publicités en rapport avec le contenu des pages.
A l’automne 2000, le produit est au point et figure dans le « catalogue » d’Oingo.
A ce moment, il ne s’agit que de publicités traditionnelles (bannières graphiques) et peu de sites s’intéressent à cette technologie ! La publicité sur internet est en pleine explosion, nous sommes en pleine phase de gonflement de la bulle et de folie des start-up, et le besoin de « cibler » les annonces n’apparait pas comme vital…

En fait, il faudra attendre deux ans pour que la technologie Adsense commence à intéresser des portails grand public.

Les publicités contextuelles enfin testées

En octobre 2002, Applied Semantics décide de relancer le projet Adsense et cherche des diffuseurs pour tester en vraie grandeur les annonces contextuelles. Le premier site à accepter est USA Today, qui signe un accord à titre de test en février 2003. Dans la foulée, Excite et iWon testent cette nouvelle technologie, ainsi que le site du San Francisco Chronicle.

Février/Mars 2003 : la course aux pubs contextuelles

Parallèlement, une guerre commerciale s’est engagée entre Overture et Google. Overture vient de racheter plusieurs moteurs de recherche, dont Altavista et Fast, afin de gagner des parts de marché sur le marché des moteurs de recherche et d’acquérir des technologies. Google réagit en tentant de prendre une avance technologique, et développe à marche forcée un programme de publicité contextuelle.

Fin février, le lancement du programme par Google est annoncé comme imminent, et Overture se fend d’un communiqué (le 25 février 2003) pour annoncer qu’ils ont un projet similaire dans les cartons.

Dans ce communiqué, Overture annonce que la technologie qu’ils envisagent s’appuient sur celle de Keylime, une petite société achetée en janvier. C’est un pieux mensonge… Le programme d’Overture est loin d’être au point. Mais Overture dispose, par l’intermédiaire de l’un de ses partenaires commerciaux, d’une arme secrète. Cet arme, c’est Adsense, et le partenaire commercial, Applied Semantics.

La société californienne est en effet un partenaire privilégié d’Overture depuis des mois, grace à DomainPark, un système de publicité ciblée sur les pages « parking » de domaines non utilisées, dont Overture assure la régie.

Les négociations entre Overture et Applied Semantics s’engagent. Objectif : contrer Google, et lancer rapidement un programme de liens sponsorisés contextuels …

mars 2003 : Google lance ses liens contextuels

Le 4 mars 2003, Google annonce la création de son programme de publicité contextuelle…

extrait du communiqué de Reuters

PALO ALTO, Californie (Reuters) - La société Google, du nom du moteur de recherche sur internet, vient de dévoiler un programme qui permet de placer automatiquement de la publicité ciblée sur les pages répondant aux demandes formulées par les internautes.
Google met ainsi ses pas dans ceux de Sprinks, propriété de l'éditeur Primedia, dans le marché de la publicité ciblée sur internet.
Le nouveau programme identifie automatiquement le thème de chaque page web trouvée par le moteur de recherche et établit des liens avec des sites d'annonceurs appropriés.
Ce programme, qui a été lancé la semaine dernière, est gratuit jusqu'au 12 mars. Il en coûtera ensuite aux annonceurs le prix qu'ils paient actuellement pour figurer dans les services qui permettent de lier la publicité aux résultats des recherches, a déclaré Susan Wojcicki, responsable produits chez Google.

Les relations personnelles entre Gil Elbaz et Larry Page vont jouer un rôle essentiel dans la suite des opérations… Les deux hommes, qui ont un parcours très similaire, à force de se croiser, sont devenus amis. Google va donc proposer à Applied Semantics le rachat de la société, à des conditions très avantageuses…

avril 2003 : Google rachète Applied Semantics

En quelques semaines, l’affaire est conclue, et le 23 avril 2003, la vente d’Applied Semantics est annoncée publiquement.

Le camouflet infligé à Overture est flagrant ! Dans la guerre larvée qui opposait Yahoo/Overture à Google, ces derniers venaient de remporter une bataille stratégique, en privant Overture de la technologie Adsense.

Overture s’est ingénié à minimiser l’impact de cette vente. Voilà ce que déclarait à l’époque Al Duncan à Chris Sherman de Jupiter Media :

« Il y’a une faiblesse inhérente à une approchement purement technologique comme celle du produit d’Applied Semantics. Notre produit à nous combinera des processus technologiques et éditoriaux (des filtres à haute sensibilité qui sont indispensables pour éliminer des concordances malheureuses. Par exemple, un article sur un accident d’avion avec des liens pour des voyages. »

Google Content-Targeted Advertising devient … Google Adsense

Par contre, si tous les observateurs ont salué le « coup » réussi par Google avec ce rachat, la plupart s’attendaient à ce que la technologie Adsense soit rangée dans un placard en attendant des jours meilleurs… Car Google venait déjà de lancer sa propre technologie !

Il n’en a rien été … Quelques semaines plus tard (18 juin 2003), le programme de liens contextuels de google change de nom, et de technologie, et devient … Google Adsense !

En novembre 2003, le programme Adsense s’ouvre aux sites francophones… en quelques semaines, de nombreux webmasters français découvrent ce nouveau système et l’installent sur leur site. Beaucoup s’étonneront en découvrant qu’effectivement, Adsense est capable d’analyser les pages en quelques minutes, et de délivrer des liens publicitaires adaptés au contenu de la page.

Mais quels sont les principes de fonctionnement d’Adsense ? C’est ce que nous développerons dans la deuxième et la troisième partie de cet article :

-les principes de la technologie CIRCA

-AdSense au travail sur vos pages…

Philippe YONNET

BIBLIOGRAPHIE ET LIENS UTILES

L’article de Paula J. Hane dans Infotoday sur Oingo
http://www.infotoday.com/newsbreaks/nb1220-2.htm

Le communiqué commun de Alldomains et Oingo
http://www.alldomains.com/press/100300.html

Le site (fermé) d’Applied Semantics
http://www.appliedsemantics.com

Wordnet
Fellbaum, C. (1998). »WordNet : An Electronic Lexical Database ». MIT Press

USA Today teste le programme Adsense – 10 février 2003
_http://www.editorandpublisher.com/eandp/news/article_display.jsp?vnu_content_id=1813932

Article de NewsAndTech sur l’accord avec USA Today
http://www.newsandtech.com/issues/2002/11-02/ot/11-02_semantics.htm

Communiqué d’Overture du 25 février 2003 – annonce d’un programme de pub contextuelle

http://www.clickz.com/news/article.php/1607621

Communiqué de Google du 4 mars 2003 – lancement du programme de pub contextuelle

http://www.google.com/press/pressrel/advertising.html


[1] L’origine du nom Oingo est assez mystérieuse. Voila la seule chose que Gil Elbaz a dévoilé à ce sujet : »Oingo est en fait un acronyme, mais nous ne dévoilerons pas ce que cela recouvre pour le moment. Cela a un rapport étroit avec notre prochain projet important, et nous ne voulons pas donner d’indications avant d’y être obligés. ». Certains ont pensé que c’était une allusion au groupe californien Oingo Boingo, dont la musique a toujours été considérée comme « inclassable ». Il est plus probable que le mot « ontologie » figure quelque part dans cet acronyme.

[2] Ce qui pourrait se traduire par « Architecture de Communication et d’extraction d’information conceptuelle »