Rechercher dans les publications Rechercher:

Imprimer cet article

Rechercher dans les publications Auteur : Cariboo
Site Web :
Pnambique

Directeur du Pôle Experts de la société @position http://www.aposition.com

Articles de l'auteur :
La détection du Link Spam : un challenge pour les moteurs [3/4]
La détection du Link Spam : un challenge pour les moteurs [2/4]
La détection du Link Spam : un challenge pour les moteurs [Bibl.]
La détection du Link Spam : un challenge pour les moteurs [1/4]
Cuill veut surpasser Google grâce à l’analyse de données sémantiques
2007 : l’année des moteurs furtifs
L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.4]
L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.3]
L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.2]
L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.1]
Joachim Kreibich (Seekport) : pour nous, un moteur de recherche de qualité doit tenir compte des particularismes linguistiques nationaux, voire régionaux
Une tentative de définition du spamdexing
Google Base dévoilé !
Les concepts de la POO
La programmation objet : qu’est-ce que c’est ? à quoi ça sert ?
Gregory Olivier "MSN Search cherche à établir un véritable dialogue avec les webmasters et les référenceurs"
Direct Answers from Encarta
MSN Search utilise-t’il l’analyse au niveau des blocs ?
Spyware : les méthodes pour s’en débarasser
Michael James, de la société Mirago "Nous misons sur nos partenaires pour développer notre visibilité"
La sémantique appliquée et les outils de recherche [2/6]
Linguistique statistique et sémantique appliquée : outil de pertinence pour les moteurs, de KM et de référencement
ANALYSE THEMATIQUE (4/4) par le Pr E. Garcia
ANALYSE THEMATIQUE (3/4) par le Pr E. Garcia
Applications des outils sémantiques au référencement et aux moteurs de recherche
Sémantique appliquée : Liens et références bibliographiques
ANALYSE THEMATIQUE (2/4) par le Pr E. Garcia
ANALYSE THEMATIQUE (1/4) par le Pr E. Garcia
CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [3]
Mon premier programme en PHP (3e Partie)
CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2]
CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [1]
Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin)
Quelques pistes pour comprendre le nouvel algorithme de Google
FOOXX, le moteur futé venu d’Allemagne
Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ?
Mooter, un moteur de recherche innovant venu d’Australie
Les techniques évoluées d’indexation dans les moteurs de recherche (2e partie)
Visibilité et stratégies de développement d’audience sur le Web
Les techniques évoluées d’indexation dans les moteurs de recherche
L’algorithme HITS et le projet CLEVER (deuxième partie)
L’algorithme HITS et le projet CLEVER
La structure du web est en forme de "noeud papillon"
Webfountain d’IBM
Vers un moteur de recherche sensible au contexte (1ère partie)
Vers un moteur de recherche sensible au contexte (2ème partie)
Vers un moteur de recherche sensible au contexte (3ème partie)
Droit d’auteur et site web
Droit d’auteur et site web (2e Partie)
Droit des producteurs de bases de données (législation française)
Tester correctement variables et valeurs en php
Mon premier programme en PHP (2e Partie)
Les nouveautés de la version 5 de PHP
Les origines du PHP
Mon premier programme en PHP
Pourquoi choisir le PHP pour réaliser des pages dynamiques ?
2007 : l’année des moteurs furtifs

Stealth search engines

2007 : l’année des moteurs furtifs

Powerset, Radar, Cuill, ...

14 octobre 2007, par Cariboo

Surveillez vos logs d’un peu plus près... Depuis quelques mois, des bots inconnus apparaissent (parfois cachés sous des user agents connus) et crawlent votre site web. D’où viennent-ils ? Qui sont-ils ? Certains des moteurs qui sont derrière ces robots d’indexation ne veulent pas que vous le sachiez. D’autres le veulent bien, cela sert leur communication. Mais tous sont des moteurs "furtifs".

Cuill, Radar, Powerset... L’année 2007 apparait comme celle de l’explosion de nouveaux moteurs, promettant un tournant technologique lors de leur sortie courant 2008. Dans beaucoup de cas il s’agit surtout de "promesses marketing" mais il y’a aussi de vrais pionniers qui tentent une approche révolutionnaire.

Enfin un bol d’air dans un monde dominé par les moteurs "à la Google" qui, on le sait, ont encore bien des défauts.

Mais c’est quoi un moteur furtif ("stealth search engines")

Les moteurs furtifs ne sont pas des moteurs qui font appel à une technologie militaire, ni à un algorithme en particulier. On appelle "furtif" (stealth) un moteur de recherche qui crawle le web, qui dispose déjà d’un index, que quelques privilégiés peuvent voir fonctionner, mais qui n’est pas utilisable par le grand public.

La plupart des moteurs restent en phase "stealth" au cours d’une période de bêta test plus ou moins longue. Détecter un moteur furtif, c’est donc en général détecter un futur outil de recherche.

On peut observer par ailleurs que le mode "furtif" est très souvent utilisé aussi à des fins de communication, dans le cadre de l’orchestration de campagnes de buzz autour du moteur. Parfois, la montagne n’accouche que d’une souris [1]

Les principaux moteurs furtifs apparus en 2007

Trois nouveaux moteurs ont été présentés comme des futurs Google Killers. Qu’en est-il exactement ? L’avenir nous le dira.

Cuill

Fondé par des anciens de Google et d’IBM (projet Webfountain), c’est sans doute le projet le plus sérieux de tous. Cuill veut se lancer avec un index plus gros que Google, et une technologie à la fois classique et innovante, se basant sur un système d’indexation original, s’appuyant sur un index augmenté de balises sémantiques automatiquement ajoutées au contenu.

Powerset

Powerset a décidé d’oser placer le traitement du langage naturel au coeur de son moteur... Le "sens" de la question posée dans la requête sera donc pris en compte, ainsi que le "sens" des contenus renvoyés.

Dans un tel contexte, les problèmes posés par l’indexation sont énormes, ainsi que les calculs à effectuer en temps réel. Beaucoup doutent que Powerset aient réellement surmonté toutes les difficultés que posent ce genre de moteurs, et prédisent que ce moteur restera longtemps une bêta...

Mylivesearch

Mylivesearch est sorti du mode furtif, on peut donc tester leur concept depuis peu. Le plugin mylivesearch permet, à l’aide de résultats d’autres moteurs, de déterminer une liste de pages en rapport avec une requête. Ensuite, il les crawle... depuis votre machine, pour afficher des résultats calculés sur des pages récupérées dans leur état d’il y’a quelques minutes.

C’est intéressant, utile pour des requêtes portant sur des pages dynamiques qui changent sans arrêt, mais il est difficile d’imaginer Mylivesearch en Google Killer.

Leur réputation vient en fait essentiellement de l’intérêt que Google semble porter à cette technologie... qui peut être complémentaire de leur système d’index "historique".

Les grandes tendances parmi ces nouveaux outils de recherche

Les moteurs "sociaux"

Beaucoup de ces nouveaux moteurs essaient d’appliquer les principes des réseaux sociaux aux outils de recherche. Qu’il s’agisse de "voter" pour déterminer les sites pertinents, de partager des bookmarks ou des tags sociaux, dans de nombreux cas l’utilisateur est mis à contribution.

On note aussi la multiplication de moteurs verticaux spécialisés dans la recherche d’information sur des personnes...

Les moteurs permettant une personnalisation poussée de la recherche d’informations

Pour être pertinent, un moteur a besoin de deviner quel type d’informations est recherché, et quelle est la thématique qui constitue le contexte de la requête. Certains des outils proposent donc à l’utilisateur de créer des profils personnalisés, qui permettent d’affiner les réponses de leur moteur (ou celles données par les autres).

Les moteurs utilisant le web sémantique

Des années après avoir été inventés, les principes du web sémantique commencent à trouver des applications, et les outils de recherche prennent ce train en marche.

Ces nouveaux outils utilisent le web sémantique de manière plus ou moins sophistiquée. Les plus frustres se contentent d’exploiter les rdf existants, les plus avancés balisent automatiquement des textes pas du tout réalisés selon les préceptes de Tim Berners Lee.

Le langage naturel

Tant pis pour les sceptiques, Powerset annonce qu’il va tenter le pari d’un moteur qui comprend le langage naturel.

Le retour de pertinence

Rien de neuf sous le soleil, beaucoup d’outils tentent une fois de plus d’exploiter par une interface plus ou moins innovante le retour de pertinence apporté par l’internaute.

Les outils de recherche spécialisés dans la reconnaissance d’image

Sur internet, la part des contenus texte recule au profit de la photo et de la video. Quelques moteurs tentent donc d’apporter une solution aux problèmes que posent ces nouveaux contenus : comment les reconnaître, comment chercher ces contenus sans avoir besoin de leur description, et comment trouver une image en donnant une autre image...

Un aperçu des moteurs de recherche furtifs identifiés en 2007

Ce tableau n’est pas exhaustif. Certains des outils sont déjà sortis du mode furtif

logo Nom+url Statut Description bot
Careermesh bêta recherche d’annonces emploi et d’infos sur les carrières  ??
Cuillfurtif, mais très actif se présente comme le Google killer... Twiceler
Digger bêta privée moteur utilisant l’analyse syntaxique de la requête  ??
Dipsie bêta fermée, mode furtif vieux moteur furtif, déclaré mort début 2006, qui présente à nouveau des indices d’activité dipsiebot
Imedixmode furtifOutil de recherche vertical sur la santé, orienté web 2.0  ??
Mylivesearchsorti du mode furtif le 29 aoûtoutil de recherche sans index propre ??
Nexplorebêta privéeoutil de recherche rich media web 2.0  ??
Radartrès furtifoutil de recherche utilisant le balisage sémantique ??
Foxmarkspartiellement furtifoutil de recherche web 2.0 utilisant le partage de bookmarks -
iPrecisalpha fermée / furtif moteur de recherche doté de fonctionnalités de personnalisation  ??
ZooMilesaccessibledevenu shop4miles en sortant du mode furtif. Moteur de produits, recherche rémunérée ??
Mobotaccessible via mobileun outil de recherche novateur, permettant de rechercher des items (places de cinema, goodies, magasins) correspondant à une image photographiée dans la rue. Génial ! -
Polar Rosebêta privéeoutil de recherche spécialisé, capable d’associer des noms à des portraits - original -
Zitgistalphaoutil de recherche utilisant le web sémantique -
Migoaaccessible depuis le 19 septDevenu nuroa.es en sortant de bêta test : moteur de recherche d’annonces immobilières doté d’une interface innovante -
Nosyjoepartiellement accessiblemoteur de recherche "social"
Palorebêta privéemoteur de recherche type "pages jaunes" avec interface dotée d’informations enrichies -
powersettoujours en bêta Moteur de recherche comprenant le langage naturel -
Subjex100% furtif outil de recherche avec recherche avancée assistée par un agent virtuel -
Surf Canyonbêta privéeoutil de recherche avec retour de pertinence et désambiguation sémantique -
JatallafurtifOutil de recherche "social" -
MakidifurtifOutil de recherche sur les données personnelles à la zoominfo -
Whozatbêta privéeOutil de recherche de données personnelles à la zoominfo -
Feeds 2.0 ferméAgrégateur de flux rss doté de fonctionnalités de personnalisation et de recherche avancées -
Nsyghtalpharecherche dans une base de partage de tags sociaux -
Ohigobêta ferméeoutil de recherche de ressources musicales -
Grayboxxbêta ferméeoutil de recherche "locale" ( ?)

Philippe YONNET

[Crédits] Merci à Charles Knight de AltSearchEngines d’avoir défriché le terrain pour moi.
AltSearchEngines



[1] On se souvient du buzz autour de Megaglobe