|
Site Web : Pnambique Directeur du Pôle Experts de la société @position http://www.aposition.com Articles de l'auteur : La détection du Link Spam : un challenge pour les moteurs [3/4] La détection du Link Spam : un challenge pour les moteurs [2/4] La détection du Link Spam : un challenge pour les moteurs [Bibl.] La détection du Link Spam : un challenge pour les moteurs [1/4] Cuill veut surpasser Google grâce à l’analyse de données sémantiques 2007 : l’année des moteurs furtifs L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.4] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.3] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.2] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.1] Joachim Kreibich (Seekport) : pour nous, un moteur de recherche de qualité doit tenir compte des particularismes linguistiques nationaux, voire régionaux Une tentative de définition du spamdexing Google Base dévoilé ! Les concepts de la POO La programmation objet : qu’est-ce que c’est ? à quoi ça sert ? Gregory Olivier "MSN Search cherche à établir un véritable dialogue avec les webmasters et les référenceurs" Direct Answers from Encarta MSN Search utilise-t’il l’analyse au niveau des blocs ? Spyware : les méthodes pour s’en débarasser Michael James, de la société Mirago "Nous misons sur nos partenaires pour développer notre visibilité" La sémantique appliquée et les outils de recherche [2/6] Linguistique statistique et sémantique appliquée : outil de pertinence pour les moteurs, de KM et de référencement ANALYSE THEMATIQUE (4/4) par le Pr E. Garcia ANALYSE THEMATIQUE (3/4) par le Pr E. Garcia Applications des outils sémantiques au référencement et aux moteurs de recherche Sémantique appliquée : Liens et références bibliographiques ANALYSE THEMATIQUE (2/4) par le Pr E. Garcia ANALYSE THEMATIQUE (1/4) par le Pr E. Garcia CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [3] Mon premier programme en PHP (3e Partie) CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2] CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [1] Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin) Quelques pistes pour comprendre le nouvel algorithme de Google FOOXX, le moteur futé venu d’Allemagne Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ? Mooter, un moteur de recherche innovant venu d’Australie Les techniques évoluées d’indexation dans les moteurs de recherche (2e partie) Visibilité et stratégies de développement d’audience sur le Web Les techniques évoluées d’indexation dans les moteurs de recherche L’algorithme HITS et le projet CLEVER (deuxième partie) L’algorithme HITS et le projet CLEVER La structure du web est en forme de "noeud papillon" Webfountain d’IBM Vers un moteur de recherche sensible au contexte (1ère partie) Vers un moteur de recherche sensible au contexte (2ème partie) Vers un moteur de recherche sensible au contexte (3ème partie) Droit d’auteur et site web Droit d’auteur et site web (2e Partie) Droit des producteurs de bases de données (législation française) Tester correctement variables et valeurs en php Mon premier programme en PHP (2e Partie) Les nouveautés de la version 5 de PHP Les origines du PHP Mon premier programme en PHP Pourquoi choisir le PHP pour réaliser des pages dynamiques ? |
CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [3]
Les principes des outils sémantiques utilisés par Google pour ses programmes de pubCIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [3][3ème partie : Adsense en action sur vos sites]3 octobre 2004, par CaribooLe programme Adsense de Google a été développé à partir de la technologie CIRCA d’Applied Semantics. Ses principes de fonctionnement sont toujours ceux décrits dans l’article précédent, à quelques spécificités près que nous allons décrire. Dans un deuxième temps, nous allons nous demander pourquoi Google Adsense donne parfois des résultats jugés peu pertinents, avant de donner quelques "trucs" d’optimisation des pages pour améliorer leur pertinence ... Première partie : CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [1] Deuxième partie : CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2] COMMENT FONCTIONNE GOOGLE ADSENSE ?Pour bénéficier du programme Adsense, il faut commencer par s’inscrire et créer un compte. Le site de l’éditeur est alors examiné pour vérifier s’il correspond aux critères définis pour bénéficier du programme. Quelque jours plus tard, l’éditeur se voit confirmer son "éligibilité" et peut commencer à placer sur ses pages un code qui ressemble à ceci : <script type="text/javascript"><!--Une fois ce code installé sur une page, les bannières Adsense s’affichent automatiquement. Dans un premier temps (on verra plus tard pourquoi), seules s’affichent soit des annonces pour des organismes humanitaires, soit des annonces pauvrement ciblées... Chaque affichage de la page produit des requêtes sur le serveur Adsense. Si les requêtes émanent d’une page nouvelle [1], l’ url de cette nouvelle page est aussitôt placée dans la file d’attente d’un spider (robot d’indexation) spécial baptisé Mediapartner. [2]. Le robot d’indexation "aspire" la page, qui ensuite est analysée pour en déterminer le sujet, de la façon décrite dans l’article sur CIRCA. Quelques instants plus tard (c’est parfois plus long), Adsense commencera à servir des annonces ciblées en fonction du ou des thèmes identifiés pour la page web...
OUTIL DE TEST POUR GOOGLE ADSENSEVous n’êtes pas encore inscrit au programme Adsense, et vous voulez savoir quel type d’annonces s’afficherait sur votre site ? Qu’à cela ne tienne, je vous offre un petit outil permettant de tester sans frais les annonces Adsense...
L’utilisation de cet outil de test nous apprend pas mal de choses à la longue. D’abord qu’entrer des mots clés ou des url peut produire des résultats identiques... Mais qu’il est en général difficile de deviner quels mots clés il faut entrer pour produire le même contenu d’annonces que sur un site donné. Plus surprenant, si l’on entre l’url de pages (et même de sites) ne contenant aucune annonce adsense, il arrive fréquemment que l’on obtienne immédiatement en retour des annonces ciblées ! En fait depuis quelques mois, il semble que la "thématique" de très nombreux sites soit connue du système Adsense. Y compris celle de sites n’ayant pas souscrit au programme. Certains webmasters non inscrits ont détecté Mediapartner dans leurs logs. Ceci explique sans doute cela : CIRCA est utilisé pour analyser d’autres sites que ceux du programme. Mais dans quel but ? QUELQUES EXPERIENCES AVEC LES ANNONCES ADSENSEJ’ai effectué pour vous quelques expériences pour faire le tri parmi les nombreuses affirmations que l’on lit ça et là sur le fonctionnement d’Adsense. Les premiers tests ont été effectués en entrant une url dans l’outil ci-dessus, qui interroge le serveur adsense. Test 1 : test d’une url totalement fantaisiste
Test 2 : test d’une page html inexistante dans un domaine connu d’Adsense
Test 3 : test d’une page html inexistante dans un domaine connu d’Adsense, avec mots clés inclus dans le nom de la page
Test 4 : test sur une page existante, dans un domaine connu d’Adsense, non encore indexée par Mediapartner.
Test 5 : test sur une page existante, dans un domaine connu d’Adsense, indexée par Mediapartner.
OBSERVONS COMMENT ADSENSE CIBLE SES PUBSPour cette expérience, j’ai pris un texte dont le sujet me semblait assez évident (une histoire de meubles), créé une page html ultra simple contenant ce texte et un bloc d’annonces adsense. Le résultat est cette page, où l’on peut voir que les annonces sont à peu près en rapport avec le sujet... (des pubs pour du mobilier et/ou du déménagement). Il est clair que la thématique "déménagement" resulte de la présence dans le texte de mots comme "adresse" et "carton"... Essayons de modifier le texte, en éliminant ces mots qui visiblement perturbent Adsense, et créent une trop grande proximité avec le sens "déménagement". Voila la page ainsi modifiée : page "mobilier pur" En fait, ces erreurs sur le "sujet" réel s’observent souvent sur des textes courts. Sur des textes beaucoup plus long, Adsense arrive à déterminer avec un taux d’erreur réduit le sujet réel de la page... Et si la page parle de deux sujets différents ? Il arrive fréquemment qu’une page web contienne plusieurs zones, dans lesquelles voisinent des textes parlant de sujet totalement différents ... Essayons de construire une telle page. J’ajoute donc à mon texte sur Emmaüs (c’est ma manière de faire des PSA), un texte sur le clubbing à Londres (rien à voir, c’est le but recherché. Voici le résultat : meubles & clubbing à Londres Comme nous l’avions expliqué dans notre deuxième partie, la technologie CIRCA est capable d’analyser une page par zones, et d’attribuer des thématiques à chaque zone... Là, les publicités sont clairement réparties en fonction des deux thématiques détectées : clubbing, et mobilier. Maintenant, essayons de voir ce qui se passe si on essaie de donner une structure au document... Nous allons créer un tableau HTML simple, composé de deux cellules l’une au dessus de l’autre. Nous allons placer un des deux textes et un bloc d’annonces Adsense dans chacune des deux cellules. Et le résultat est spectaculaire : des blocs adsense plus [4] en rapport avec le texte situé à proximité ! On a parfois dit que les blocs adsense étaient sensibles au texte placés avant eux. C’est tout bonnement faux : la preuve.
Il a souvent été dit aussi que les pubs délivrées étaient déterminées par le texte le plus proche. En fait c’est plutôt les éléments structurant la page qui ont une influence certaine : comme la présence du code Adsense et du texte associé dans la même POURQUOI LES ANNONCES ADSENSE NE SONT ELLES PAS TOUJOURS PERTINENTES ?Tout d’abord parce que la catégorisation automatique de pages web se basant sur des méthodes sémantiques a ses limites... Dans certains cas, le manque d’informations contextuelles conduit le système à faire des erreurs grossières. Essayons de faire perdre le Nord à Adsense Histoire de jouer avec les limites des technologies sémantiques, nous allons faire exprès de créer un texte ambigu. Commençons par un exemple historique [5] et parlons de jaguar en mélangeant termes zoologiques et allusions à l’automobile...
Le résultat est édifiant... Les pubs affichées démontrent qu’Adsense estime que le thème automobile n’est pas pertinent (pourquoi pas), que le thème "sécurité" l’est, par contre (normal : jungle urbaine, dealers, trafiquants... l’utilisation d’une ontologie a tendance à rendre ce genre de raccourcis fréquents) et que l’on parle aussi d’animaux... (alors là ! Objectif atteint : le sens du texte n’a pas été compris, et le contresens est manifeste). Essayons maintenant avec l’exemple donné par Applied Semantics, c’est à dire le mot Java.
Bon, je reconnais avoir vraiment écrit un texte tordu... Mais ce texte démontre que l’on peut rendre totalement perplexe le système Adsense... Ce texte, qui a un sens, ne semble pas être catégorisable par CIRCA ! Depuis sa mise en ligne, le bloc adsense ne sait afficher que les annonces définies par le domaine studyrama.com ... Pour arriver à ce résultat, la formule est simple : il faut réaliser un texte contenant des termes ambigus pris isolément, et de générer une "indécidabilité" de correlation avec une thématique donnée, en accompagnant ce terme par d’autres ayant la même probabilité de cooccurence dans chaque contexte thématique... Le problème des pages multithématiques Sur un site, il existe fréquemment des pages susceptibles de contenir des zones avec des thématiques totalement différentes. (exemple : une page de sommaire !) Dans ce cas, Adsense essaie de servir des annonces en rapport avec chacune des thématiques, ce qui donne en général un résultat qui semble peu pertinent. La structure de la page peut influencer les résultats Si le bloc d’annonces est situé dans une structure éloignée de plusieurs niveaux du texte principal, le bloc adsense se trouve plus influencé par d’autres éléments qui eux sont situés près du bloc dans le code HTML(même s’ils sont situés de l’autre côté de la page). C’est notamment vrai s’il s’agit de liens, de titres dans une balise Les mots clés sont souvent mal choisis par les annonceurs Les clients du programme Adsense sont d’abord des clients du programme Adwords. Ce qu’ils achètent, c’est le fait d’apparaître dans des requêtes du moteur Google, en fonction de mots-clés déterminés. Le fait d’apparaître sur tel ou tel site inscrit au programme Adsense, dépend alors de deux choses :
On comprend facilement que la pertinence des annonces dépend tout autant de la thématique déterminée par les mots clés choisis par l’annonceur, que de la capacité à déterminer le sujet d’une page... Et il arrive fréquemment que les annonceurs fassent des choix de mots clés très très maladroits, voire idiots : un concessionnaire jaguar peut choisir par exemple le mot clé jaguar en oubliant d’exclure animal, zoologie etc... Les problèmes de pertinence proviennent souvent d’erreurs de ce type du côté annonceurs. QUELQUES CONSEILS POUR AMELIORER LE CIBLAGE DES ADSENSE SUR SES PAGES WEBEn conclusion, on voit qu’il est possible d’améliorer la pertinence des annonces qui passent sur ses pages webs en respectant des règles simples :
Philippe YONNET [1] la page d’où émane la requête est tout simplement récupérée par la propriété "referrer" de la page ! Voici le code généré par Google sur la page : if (window.google_page_url == null) {Au passage, on voit que le champ IMS (If Modified Since) est également passé ici par le script. La date de dernière modification du fichier est effectivement passée au serveur par le code Adsense, ce qui explique pourquoi Adsense est capable d’afficher très vite des annonces ciblées sur une page récemment modifiée. [2] Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html) pour être complet... [3] PSA=Public Service Ads [4] les pubs d’une thématique débordent parfois sur l’autre bloc, de manière à remplir les deux, ce qui empêche parfois de voir l’augmentation de pertinence [5] Le mot-clé jaguar a été pris comme exemple dans un article fondateur rédigé par les inventeurs de l’algorithme HITS, pour expliquer pourquoi les moteurs de recherche étaient parfaitement idiots, et ne comprenaient ce que leurs utilisateurs cherchaient. [6] A noter : il semble qu’Adsense accorde maintenant moins d’importance qu’au début à la balise |
|
|
||
|