|
Site Web : Pnambique Directeur du Pôle Experts de la société @position http://www.aposition.com Articles de l'auteur : La détection du Link Spam : un challenge pour les moteurs [3/4] La détection du Link Spam : un challenge pour les moteurs [2/4] La détection du Link Spam : un challenge pour les moteurs [Bibl.] La détection du Link Spam : un challenge pour les moteurs [1/4] Cuill veut surpasser Google grâce à l’analyse de données sémantiques 2007 : l’année des moteurs furtifs L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.4] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.3] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.2] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.1] Joachim Kreibich (Seekport) : pour nous, un moteur de recherche de qualité doit tenir compte des particularismes linguistiques nationaux, voire régionaux Une tentative de définition du spamdexing Google Base dévoilé ! Les concepts de la POO La programmation objet : qu’est-ce que c’est ? à quoi ça sert ? Gregory Olivier "MSN Search cherche à établir un véritable dialogue avec les webmasters et les référenceurs" Direct Answers from Encarta MSN Search utilise-t’il l’analyse au niveau des blocs ? Spyware : les méthodes pour s’en débarasser Michael James, de la société Mirago "Nous misons sur nos partenaires pour développer notre visibilité" La sémantique appliquée et les outils de recherche [2/6] Linguistique statistique et sémantique appliquée : outil de pertinence pour les moteurs, de KM et de référencement ANALYSE THEMATIQUE (4/4) par le Pr E. Garcia ANALYSE THEMATIQUE (3/4) par le Pr E. Garcia Applications des outils sémantiques au référencement et aux moteurs de recherche Sémantique appliquée : Liens et références bibliographiques ANALYSE THEMATIQUE (2/4) par le Pr E. Garcia ANALYSE THEMATIQUE (1/4) par le Pr E. Garcia CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [3] Mon premier programme en PHP (3e Partie) CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2] CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [1] Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin) Quelques pistes pour comprendre le nouvel algorithme de Google FOOXX, le moteur futé venu d’Allemagne Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ? Mooter, un moteur de recherche innovant venu d’Australie Les techniques évoluées d’indexation dans les moteurs de recherche (2e partie) Visibilité et stratégies de développement d’audience sur le Web Les techniques évoluées d’indexation dans les moteurs de recherche L’algorithme HITS et le projet CLEVER (deuxième partie) L’algorithme HITS et le projet CLEVER La structure du web est en forme de "noeud papillon" Webfountain d’IBM Vers un moteur de recherche sensible au contexte (1ère partie) Vers un moteur de recherche sensible au contexte (2ème partie) Vers un moteur de recherche sensible au contexte (3ème partie) Droit d’auteur et site web Droit d’auteur et site web (2e Partie) Droit des producteurs de bases de données (législation française) Tester correctement variables et valeurs en php Mon premier programme en PHP (2e Partie) Les nouveautés de la version 5 de PHP Les origines du PHP Mon premier programme en PHP Pourquoi choisir le PHP pour réaliser des pages dynamiques ? |
2007 : l’année des moteurs furtifs
Stealth search engines2007 : l’année des moteurs furtifsPowerset, Radar, Cuill, ...14 octobre 2007, par CaribooSurveillez vos logs d’un peu plus près... Depuis quelques mois, des bots inconnus apparaissent (parfois cachés sous des user agents connus) et crawlent votre site web. D’où viennent-ils ? Qui sont-ils ? Certains des moteurs qui sont derrière ces robots d’indexation ne veulent pas que vous le sachiez. D’autres le veulent bien, cela sert leur communication. Mais tous sont des moteurs "furtifs". Cuill, Radar, Powerset... L’année 2007 apparait comme celle de l’explosion de nouveaux moteurs, promettant un tournant technologique lors de leur sortie courant 2008. Dans beaucoup de cas il s’agit surtout de "promesses marketing" mais il y’a aussi de vrais pionniers qui tentent une approche révolutionnaire. Enfin un bol d’air dans un monde dominé par les moteurs "à la Google" qui, on le sait, ont encore bien des défauts. Mais c’est quoi un moteur furtif ("stealth search engines")Les moteurs furtifs ne sont pas des moteurs qui font appel à une technologie militaire, ni à un algorithme en particulier. On appelle "furtif" (stealth) un moteur de recherche qui crawle le web, qui dispose déjà d’un index, que quelques privilégiés peuvent voir fonctionner, mais qui n’est pas utilisable par le grand public. La plupart des moteurs restent en phase "stealth" au cours d’une période de bêta test plus ou moins longue. Détecter un moteur furtif, c’est donc en général détecter un futur outil de recherche. On peut observer par ailleurs que le mode "furtif" est très souvent utilisé aussi à des fins de communication, dans le cadre de l’orchestration de campagnes de buzz autour du moteur. Parfois, la montagne n’accouche que d’une souris [1] Les principaux moteurs furtifs apparus en 2007Trois nouveaux moteurs ont été présentés comme des futurs Google Killers. Qu’en est-il exactement ? L’avenir nous le dira. Cuill Fondé par des anciens de Google et d’IBM (projet Webfountain), c’est sans doute le projet le plus sérieux de tous. Cuill veut se lancer avec un index plus gros que Google, et une technologie à la fois classique et innovante, se basant sur un système d’indexation original, s’appuyant sur un index augmenté de balises sémantiques automatiquement ajoutées au contenu. Powerset Powerset a décidé d’oser placer le traitement du langage naturel au coeur de son moteur... Le "sens" de la question posée dans la requête sera donc pris en compte, ainsi que le "sens" des contenus renvoyés. Dans un tel contexte, les problèmes posés par l’indexation sont énormes, ainsi que les calculs à effectuer en temps réel. Beaucoup doutent que Powerset aient réellement surmonté toutes les difficultés que posent ce genre de moteurs, et prédisent que ce moteur restera longtemps une bêta... Mylivesearch Mylivesearch est sorti du mode furtif, on peut donc tester leur concept depuis peu. Le plugin mylivesearch permet, à l’aide de résultats d’autres moteurs, de déterminer une liste de pages en rapport avec une requête. Ensuite, il les crawle... depuis votre machine, pour afficher des résultats calculés sur des pages récupérées dans leur état d’il y’a quelques minutes. C’est intéressant, utile pour des requêtes portant sur des pages dynamiques qui changent sans arrêt, mais il est difficile d’imaginer Mylivesearch en Google Killer. Leur réputation vient en fait essentiellement de l’intérêt que Google semble porter à cette technologie... qui peut être complémentaire de leur système d’index "historique". Les grandes tendances parmi ces nouveaux outils de rechercheLes moteurs "sociaux" Beaucoup de ces nouveaux moteurs essaient d’appliquer les principes des réseaux sociaux aux outils de recherche. Qu’il s’agisse de "voter" pour déterminer les sites pertinents, de partager des bookmarks ou des tags sociaux, dans de nombreux cas l’utilisateur est mis à contribution. On note aussi la multiplication de moteurs verticaux spécialisés dans la recherche d’information sur des personnes... Les moteurs permettant une personnalisation poussée de la recherche d’informations Pour être pertinent, un moteur a besoin de deviner quel type d’informations est recherché, et quelle est la thématique qui constitue le contexte de la requête. Certains des outils proposent donc à l’utilisateur de créer des profils personnalisés, qui permettent d’affiner les réponses de leur moteur (ou celles données par les autres). Les moteurs utilisant le web sémantique Des années après avoir été inventés, les principes du web sémantique commencent à trouver des applications, et les outils de recherche prennent ce train en marche. Ces nouveaux outils utilisent le web sémantique de manière plus ou moins sophistiquée. Les plus frustres se contentent d’exploiter les rdf existants, les plus avancés balisent automatiquement des textes pas du tout réalisés selon les préceptes de Tim Berners Lee. Le langage naturel Tant pis pour les sceptiques, Powerset annonce qu’il va tenter le pari d’un moteur qui comprend le langage naturel. Le retour de pertinence Rien de neuf sous le soleil, beaucoup d’outils tentent une fois de plus d’exploiter par une interface plus ou moins innovante le retour de pertinence apporté par l’internaute. Les outils de recherche spécialisés dans la reconnaissance d’image Sur internet, la part des contenus texte recule au profit de la photo et de la video. Quelques moteurs tentent donc d’apporter une solution aux problèmes que posent ces nouveaux contenus : comment les reconnaître, comment chercher ces contenus sans avoir besoin de leur description, et comment trouver une image en donnant une autre image... Un aperçu des moteurs de recherche furtifs identifiés en 2007Ce tableau n’est pas exhaustif. Certains des outils sont déjà sortis du mode furtif
Philippe YONNET [Crédits]
Merci à Charles Knight de AltSearchEngines d’avoir défriché le terrain pour moi.
[1] On se souvient du buzz autour de Megaglobe |
|
||
|