CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [3]

Le programme Adsense de Google a été développé à partir de la technologie CIRCA d’Applied Semantics. Ses principes de fonctionnement sont toujours ceux décrits dans l’article précédent, à quelques spécificités près que nous allons décrire.

Dans un deuxième temps, nous allons nous demander pourquoi Google Adsense donne parfois des résultats jugés peu pertinents, avant de donner quelques « trucs » d’optimisation des pages pour améliorer leur pertinence …

Première partie : CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [1]

Deuxième partie : CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2]

COMMENT FONCTIONNE GOOGLE ADSENSE ?

Pour bénéficier du programme Adsense, il faut commencer par s’inscrire et créer un compte. Le site de l’éditeur est alors examiné pour vérifier s’il correspond aux critères définis pour bénéficier du programme. Quelque jours plus tard, l’éditeur se voit confirmer son « éligibilité » et peut commencer à placer sur ses pages un code qui ressemble à ceci :


src="http://pagead2.googlesyndication.com/pagead/show_ads.js">

Une fois ce code installé sur une page, les bannières Adsense s’affichent automatiquement. Dans un premier temps (on verra plus tard pourquoi), seules s’affichent soit des annonces pour des organismes humanitaires, soit des annonces pauvrement ciblées…

Chaque affichage de la page produit des requêtes sur le serveur Adsense. Si les requêtes émanent d’une page nouvelle [1], l’ url de cette nouvelle page est aussitôt placée dans la file d’attente d’un spider (robot d’indexation) spécial baptisé Mediapartner. [2]. Le robot d’indexation « aspire » la page, qui ensuite est analysée pour en déterminer le sujet, de la façon décrite dans l’article sur CIRCA. Quelques instants plus tard (c’est parfois plus long), Adsense commencera à servir des annonces ciblées en fonction du ou des thèmes identifiés pour la page web…


OUTIL DE TEST POUR GOOGLE ADSENSE

Vous n’êtes pas encore inscrit au programme Adsense, et vous voulez savoir quel type d’annonces s’afficherait sur votre site ? Qu’à cela ne tienne, je vous offre un petit outil permettant de tester sans frais les annonces Adsense…

Outil de test des annonces Adsense


Instructions :

Tapez ou copiez-collez l’URL complète de votre page web, ou entrez des mots clés. Pour voir quelles publicités sont servies, cliquez sur le bouton « Voir … »

Leaderboard (728×90) Banner (468×60)
Skyscraper (120×600) Wide Skyscraper (160×600)
Vertical Banner (120×240) Medium Rectangle (300×250)
Square (250×250) Large Rectangle (336×280)
Button (125×125) Small Rectangle (180×150)

L’utilisation de cet outil de test nous apprend pas mal de choses à la longue. D’abord qu’entrer des mots clés ou des url peut produire des résultats identiques… Mais qu’il est en général difficile de deviner quels mots clés il faut entrer pour produire le même contenu d’annonces que sur un site donné.

Plus surprenant, si l’on entre l’url de pages (et même de sites) ne contenant aucune annonce adsense, il arrive fréquemment que l’on obtienne immédiatement en retour des annonces ciblées !

En fait depuis quelques mois, il semble que la « thématique » de très nombreux sites soit connue du système Adsense. Y compris celle de sites n’ayant pas souscrit au programme. Certains webmasters non inscrits ont détecté Mediapartner dans leurs logs. Ceci explique sans doute cela : CIRCA est utilisé pour analyser d’autres sites que ceux du programme. Mais dans quel but ?

QUELQUES EXPERIENCES AVEC LES ANNONCES ADSENSE

J’ai effectué pour vous quelques expériences pour faire le tri parmi les nombreuses affirmations que l’on lit ça et là sur le fonctionnement d’Adsense.

Les premiers tests ont été effectués en entrant une url dans l’outil ci-dessus, qui interroge le serveur adsense.

Test 1 : test d’une url totalement fantaisiste
Renvoie logiquement des PSA [3] (« annonces humanitaires »).

Test 2 : test d’une page html inexistante dans un domaine connu d’Adsense
Renvoie des annonces ciblées en rapport avec le ou les thèmes du site (domaine).

Ce test révèle un comportement qu’Adsense n’avait pas dans ses débuts : chaque domaine et sous domaine est associé à une « thématique ». Jadis, quand une nouvelle page apparaissait, des annonces humanitaires s’affichaient dans l’attente de la détermination du sujet de la page. Maintenant, des annonces ciblées en fonction du thème général du site sont affichées, et les PSA ne s’affichent que dans un petit nombre de cas.

Test 3 : test d’une page html inexistante dans un domaine connu d’Adsense, avec mots clés inclus dans le nom de la page
renvoie des annonces ciblées en rapport avec le ou les thèmes du site (domaine).
Test 3bis : test d’une page html inexistante dans un domaine inconnu d’Adsense, avec mots clés inclus dans le nom de la page
renvoie des PSA (annonces humanitaires)


Ces deux tests démontrent que la rumeur selon laquelle Adsense utilise les mots clés inclus dans l’url pour déterminer les annonces à afficher est infondée… Si le contenu n’existe pas, Adsense renvoie des PSA.

Test 4 : test sur une page existante, dans un domaine connu d’Adsense, non encore indexée par Mediapartner.
renvoie des annonces ciblées en rapport avec le ou les thème(s) du site (domaine).

Test 5 : test sur une page existante, dans un domaine connu d’Adsense, indexée par Mediapartner.
renvoie des annonces ciblées en rapport avec le ou les thèmes de la page.

OBSERVONS COMMENT ADSENSE CIBLE SES PUBS

Pour cette expérience, j’ai pris un texte dont le sujet me semblait assez évident (une histoire de meubles), créé une page html ultra simple contenant ce texte et un bloc d’annonces adsense.

Le résultat est cette page, où l’on peut voir que les annonces sont à peu près en rapport avec le sujet… (des pubs pour du mobilier et/ou du déménagement).

Il est clair que la thématique « déménagement » resulte de la présence dans le texte de mots comme « adresse » et « carton »… Essayons de modifier le texte, en éliminant ces mots qui visiblement perturbent Adsense, et créent une trop grande proximité avec le sens « déménagement ».

Voila la page ainsi modifiée : page « mobilier pur »

En fait, ces erreurs sur le « sujet » réel s’observent souvent sur des textes courts. Sur des textes beaucoup plus long, Adsense arrive à déterminer avec un taux d’erreur réduit le sujet réel de la page…

Et si la page parle de deux sujets différents ?

Il arrive fréquemment qu’une page web contienne plusieurs zones, dans lesquelles voisinent des textes parlant de sujet totalement différents …

Essayons de construire une telle page. J’ajoute donc à mon texte sur Emmaüs (c’est ma manière de faire des PSA), un texte sur le clubbing à Londres (rien à voir, c’est le but recherché.

Voici le résultat : meubles & clubbing à Londres

Comme nous l’avions expliqué dans notre deuxième partie, la technologie CIRCA est capable d’analyser une page par zones, et d’attribuer des thématiques à chaque zone… Là, les publicités sont clairement réparties en fonction des deux thématiques détectées : clubbing, et mobilier.

Maintenant, essayons de voir ce qui se passe si on essaie de donner une structure au document… Nous allons créer un tableau HTML simple, composé de deux cellules l’une au dessus de l’autre. Nous allons placer un des deux textes et un bloc d’annonces Adsense dans chacune des deux cellules.

Et le résultat est spectaculaire : des blocs adsense plus [4] en rapport avec le texte situé à proximité !

On a parfois dit que les blocs adsense étaient sensibles au texte placés avant eux. C’est tout bonnement faux : la preuve.
Il a souvent été dit aussi que les pubs délivrées étaient déterminées par le texte le plus proche. En fait c’est plutôt les éléments structurant la page qui ont une influence certaine : comme la présence du code Adsense et du texte associé dans la même

ou dans la même cellule du tableau…

POURQUOI LES ANNONCES ADSENSE NE SONT ELLES PAS TOUJOURS PERTINENTES ?

Tout d’abord parce que la catégorisation automatique de pages web se basant sur des méthodes sémantiques a ses limites… Dans certains cas, le manque d’informations contextuelles conduit le système à faire des erreurs grossières.

Essayons de faire perdre le Nord à Adsense

Histoire de jouer avec les limites des technologies sémantiques, nous allons faire exprès de créer un texte ambigu. Commençons par un exemple historique [5] et parlons de jaguar en mélangeant termes zoologiques et allusions à l’automobile…

Texte parlant de « jaguar »


Le résultat est édifiant… Les pubs affichées démontrent qu’Adsense estime que le thème automobile n’est pas pertinent (pourquoi pas), que le thème « sécurité » l’est, par contre (normal : jungle urbaine, dealers, trafiquants… l’utilisation d’une ontologie a tendance à rendre ce genre de raccourcis fréquents) et que l’on parle aussi d’animaux… (alors là ! Objectif atteint : le sens du texte n’a pas été compris, et le contresens est manifeste).

Essayons maintenant avec l’exemple donné par Applied Semantics, c’est à dire le mot Java.


Texte parlant de « java »

Bon, je reconnais avoir vraiment écrit un texte tordu… Mais ce texte démontre que l’on peut rendre totalement perplexe le système Adsense… Ce texte, qui a un sens, ne semble pas être catégorisable par CIRCA ! Depuis sa mise en ligne, le bloc adsense ne sait afficher que les annonces définies par le domaine studyrama.com …

Pour arriver à ce résultat, la formule est simple : il faut réaliser un texte contenant des termes ambigus pris isolément, et de générer une « indécidabilité » de correlation avec une thématique donnée, en accompagnant ce terme par d’autres ayant la même probabilité de cooccurence dans chaque contexte thématique…

Le problème des pages multithématiques

Sur un site, il existe fréquemment des pages susceptibles de contenir des zones avec des thématiques totalement différentes. (exemple : une page de sommaire !)

Dans ce cas, Adsense essaie de servir des annonces en rapport avec chacune des thématiques, ce qui donne en général un résultat qui semble peu pertinent.

La structure de la page peut influencer les résultats

Si le bloc d’annonces est situé dans une structure éloignée de plusieurs niveaux du texte principal, le bloc adsense se trouve plus influencé par d’autres éléments qui eux sont situés près du bloc dans le code HTML(même s’ils sont situés de l’autre côté de la page). C’est notamment vrai s’il s’agit de liens, de titres dans une balise

 

, du [6]

Les mots clés sont souvent mal choisis par les annonceurs

Les clients du programme Adsense sont d’abord des clients du programme Adwords. Ce qu’ils achètent, c’est le fait d’apparaître dans des requêtes du moteur Google, en fonction de mots-clés déterminés.

Le fait d’apparaître sur tel ou tel site inscrit au programme Adsense, dépend alors de deux choses :
- les mots clés sont rattachables à un ou plusieurs éléments de l’ontologie
- les pages sont rattachables également aux mêmes éléments de l’ontologie.

On comprend facilement que la pertinence des annonces dépend tout autant de la thématique déterminée par les mots clés choisis par l’annonceur, que de la capacité à déterminer le sujet d’une page…

Et il arrive fréquemment que les annonceurs fassent des choix de mots clés très très maladroits, voire idiots : un concessionnaire jaguar peut choisir par exemple le mot clé jaguar en oubliant d’exclure animal, zoologie etc…

Les problèmes de pertinence proviennent souvent d’erreurs de ce type du côté annonceurs.

QUELQUES CONSEILS POUR AMELIORER LE CIBLAGE DES ADSENSE SUR SES PAGES WEB

En conclusion, on voit qu’il est possible d’améliorer la pertinence des annonces qui passent sur ses pages webs en respectant des règles simples :

- tout d’abord, il faut placer les blocs d’annonces dans les mêmes « structures » html (cellules, tables, divisions…) que les textes qui constituent les éléments que vous souhaitez voir « sponsorisés ».

- si votre page parle de plusieurs sujets et si ces sujets ne sont pas trop nombreux, placez autant de blocs annonces que de sujets différents, situés à proximité (dans le code) des textes à cibler

- si les annonces qui apparaissent sont sans rapport réel avec le sujet de la page, cherchez si des termes contenus dans le texte ne « trompent » pas le système. Dans ce cas, si vous en avez la possibilité, enlevez les termes qui entrainent une mauvaise interprétation du sens

- si les annonces sont insuffisamment ciblées à votre goût, et si cela est possible ajoutez des termes caractéristiques du sujet réel de la page.

Philippe YONNET


[1] la page d’où émane la requête est tout simplement récupérée par la propriété « referrer » de la page ! Voici le code généré par Google sur la page :

if (window.google_page_url == null) {
google_page_url = document.referrer;
if (window.top.location == document.location) {
google_page_url = document.location;
google_last_modified_time = Date.parse(document.lastModified) / 1000;
google_referrer_url = document.referrer;
}
} else {
google_page_location = document.referrer;
if (window.top.location == document.location) {
google_page_location = document.location;
}

Au passage, on voit que le champ IMS (If Modified Since) est également passé ici par le script. La date de dernière modification du fichier est effectivement passée au serveur par le code Adsense, ce qui explique pourquoi Adsense est capable d’afficher très vite des annonces ciblées sur une page récemment modifiée.

[2] Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html) pour être complet…

[3] PSA=Public Service Ads

[4] les pubs d’une thématique débordent parfois sur l’autre bloc, de manière à remplir les deux, ce qui empêche parfois de voir l’augmentation de pertinence

[5] Le mot-clé jaguar a été pris comme exemple dans un article fondateur rédigé par les inventeurs de l’algorithme HITS, pour expliquer pourquoi les moteurs de recherche étaient parfaitement idiots, et ne comprenaient ce que leurs utilisateurs cherchaient.

[6] A noter : il semble qu’Adsense accorde maintenant moins d’importance qu’au début à la balise