2007 : l’année des moteurs furtifs

Surveillez vos logs d’un peu plus près… Depuis quelques mois, des bots inconnus apparaissent (parfois cachés sous des user agents connus) et crawlent votre site web. D’où viennent-ils ? Qui sont-ils ? Certains des moteurs qui sont derrière ces robots d’indexation ne veulent pas que vous le sachiez. D’autres le veulent bien, cela sert leur communication. Mais tous sont des moteurs « furtifs ».

Cuill, Radar, Powerset… L’année 2007 apparait comme celle de l’explosion de nouveaux moteurs, promettant un tournant technologique lors de leur sortie courant 2008. Dans beaucoup de cas il s’agit surtout de « promesses marketing » mais il y’a aussi de vrais pionniers qui tentent une approche révolutionnaire.

Enfin un bol d’air dans un monde dominé par les moteurs « à la Google » qui, on le sait, ont encore bien des défauts.

Mais c’est quoi un moteur furtif (« stealth search engines »)

Les moteurs furtifs ne sont pas des moteurs qui font appel à une technologie militaire, ni à un algorithme en particulier. On appelle « furtif » (stealth) un moteur de recherche qui crawle le web, qui dispose déjà d’un index, que quelques privilégiés peuvent voir fonctionner, mais qui n’est pas utilisable par le grand public.

La plupart des moteurs restent en phase « stealth » au cours d’une période de bêta test plus ou moins longue. Détecter un moteur furtif, c’est donc en général détecter un futur outil de recherche.

On peut observer par ailleurs que le mode « furtif » est très souvent utilisé aussi à des fins de communication, dans le cadre de l’orchestration de campagnes de buzz autour du moteur. Parfois, la montagne n’accouche que d’une souris [1]

Les principaux moteurs furtifs apparus en 2007

Trois nouveaux moteurs ont été présentés comme des futurs Google Killers. Qu’en est-il exactement ? L’avenir nous le dira.

Cuill

Fondé par des anciens de Google et d’IBM (projet Webfountain), c’est sans doute le projet le plus sérieux de tous. Cuill veut se lancer avec un index plus gros que Google, et une technologie à la fois classique et innovante, se basant sur un système d’indexation original, s’appuyant sur un index augmenté de balises sémantiques automatiquement ajoutées au contenu.

Powerset

Powerset a décidé d’oser placer le traitement du langage naturel au coeur de son moteur… Le « sens » de la question posée dans la requête sera donc pris en compte, ainsi que le « sens » des contenus renvoyés.

Dans un tel contexte, les problèmes posés par l’indexation sont énormes, ainsi que les calculs à effectuer en temps réel. Beaucoup doutent que Powerset aient réellement surmonté toutes les difficultés que posent ce genre de moteurs, et prédisent que ce moteur restera longtemps une bêta…

Mylivesearch

Mylivesearch est sorti du mode furtif, on peut donc tester leur concept depuis peu. Le plugin mylivesearch permet, à l’aide de résultats d’autres moteurs, de déterminer une liste de pages en rapport avec une requête. Ensuite, il les crawle… depuis votre machine, pour afficher des résultats calculés sur des pages récupérées dans leur état d’il y’a quelques minutes.

C’est intéressant, utile pour des requêtes portant sur des pages dynamiques qui changent sans arrêt, mais il est difficile d’imaginer Mylivesearch en Google Killer.

Leur réputation vient en fait essentiellement de l’intérêt que Google semble porter à cette technologie… qui peut être complémentaire de leur système d’index « historique ».

Les grandes tendances parmi ces nouveaux outils de recherche

Les moteurs « sociaux »

Beaucoup de ces nouveaux moteurs essaient d’appliquer les principes des réseaux sociaux aux outils de recherche. Qu’il s’agisse de « voter » pour déterminer les sites pertinents, de partager des bookmarks ou des tags sociaux, dans de nombreux cas l’utilisateur est mis à contribution.

On note aussi la multiplication de moteurs verticaux spécialisés dans la recherche d’information sur des personnes…

Les moteurs permettant une personnalisation poussée de la recherche d’informations

Pour être pertinent, un moteur a besoin de deviner quel type d’informations est recherché, et quelle est la thématique qui constitue le contexte de la requête. Certains des outils proposent donc à l’utilisateur de créer des profils personnalisés, qui permettent d’affiner les réponses de leur moteur (ou celles données par les autres).

Les moteurs utilisant le web sémantique

Des années après avoir été inventés, les principes du web sémantique commencent à trouver des applications, et les outils de recherche prennent ce train en marche.

Ces nouveaux outils utilisent le web sémantique de manière plus ou moins sophistiquée. Les plus frustres se contentent d’exploiter les rdf existants, les plus avancés balisent automatiquement des textes pas du tout réalisés selon les préceptes de Tim Berners Lee.

Le langage naturel

Tant pis pour les sceptiques, Powerset annonce qu’il va tenter le pari d’un moteur qui comprend le langage naturel.

Le retour de pertinence

Rien de neuf sous le soleil, beaucoup d’outils tentent une fois de plus d’exploiter par une interface plus ou moins innovante le retour de pertinence apporté par l’internaute.

Les outils de recherche spécialisés dans la reconnaissance d’image

Sur internet, la part des contenus texte recule au profit de la photo et de la video. Quelques moteurs tentent donc d’apporter une solution aux problèmes que posent ces nouveaux contenus : comment les reconnaître, comment chercher ces contenus sans avoir besoin de leur description, et comment trouver une image en donnant une autre image…

Un aperçu des moteurs de recherche furtifs identifiés en 2007

Ce tableau n’est pas exhaustif. Certains des outils sont déjà sortis du mode furtif

logo Nom+url Statut Description bot

Careermesh bêta recherche d’annonces emploi et d’infos sur les carrières ??

Cuill furtif, mais très actif se présente comme le Google killer… Twiceler

Digger bêta privée moteur utilisant l’analyse syntaxique de la requête ??

Dipsie bêta fermée, mode furtif vieux moteur furtif, déclaré mort début 2006, qui présente à nouveau des indices d’activité dipsiebot

Imedix mode furtif Outil de recherche vertical sur la santé, orienté web 2.0 ??

Mylivesearch sorti du mode furtif le 29 août outil de recherche sans index propre ??

Nexplore bêta privée outil de recherche rich media web 2.0 ??

Radar très furtif outil de recherche utilisant le balisage sémantique ??

Foxmarks partiellement furtif outil de recherche web 2.0 utilisant le partage de bookmarks

iPrecis alpha fermée / furtif moteur de recherche doté de fonctionnalités de personnalisation ??

ZooMiles accessible devenu shop4miles en sortant du mode furtif. Moteur de produits, recherche rémunérée ??

Mobot accessible via mobile un outil de recherche novateur, permettant de rechercher des items (places de cinema, goodies, magasins) correspondant à une image photographiée dans la rue. Génial !

Polar Rose bêta privée outil de recherche spécialisé, capable d’associer des noms à des portraits – original

Zitgist alpha outil de recherche utilisant le web sémantique

Migoa accessible depuis le 19 sept Devenu nuroa.es en sortant de bêta test : moteur de recherche d’annonces immobilières doté d’une interface innovante

Nosyjoe partiellement accessible moteur de recherche « social »

Palore bêta privée moteur de recherche type « pages jaunes » avec interface dotée d’informations enrichies

powerset toujours en bêta Moteur de recherche comprenant le langage naturel

Subjex 100% furtif outil de recherche avec recherche avancée assistée par un agent virtuel

Surf Canyon bêta privée outil de recherche avec retour de pertinence et désambiguation sémantique

Jatalla furtif Outil de recherche « social »

Makidi furtif Outil de recherche sur les données personnelles à la zoominfo

Whozat bêta privée Outil de recherche de données personnelles à la zoominfo

Feeds 2.0 fermé Agrégateur de flux rss doté de fonctionnalités de personnalisation et de recherche avancées

Nsyght alpha recherche dans une base de partage de tags sociaux

Ohigo bêta fermée outil de recherche de ressources musicales

Grayboxx bêta fermée outil de recherche « locale » (?)

Philippe YONNET

[Crédits]
Merci à Charles Knight de AltSearchEngines d’avoir défriché le terrain pour moi.
AltSearchEngines


[1] On se souvient du buzz autour de Megaglobe