Aller au contenu

Encyclopédie des Robots, Spiders, Crawlers


Jeanluc

Sujets conseillés

Bonjour,

Nous venons de mettre en ligne une Encyclopédie des Robots du web. Bien sûr, il existe d'autres listes de robots sur Internet, mais nous allons utiliser notre expérience de maintenance d'une liste de plus de 5000 annuaires pour développer et tenir à jour cette liste de robots, crawlers, spiders et autres UserAgents bizarroïdes.

Notre but est de permettre au webmaster de voir en quelques secondes si les visites de ce robot sur son site lui sont bénéfiques ou non. Il peut alors éventuellement décider de l'exclure.

Actuellement, pour chaque robot référencé, nous indiquons :

- le nom du propriétaire du robot ou de l'auteur du logiciel

- sa nationalité

- le type de robot (pour savoir si ce robot crawle le site ou s'il se contente de lire une page)

- une description du service concerné

- le UserAgent transmis au serveurs web visités

- la plage d'adresses depuis laquelle le robot travaille

- une URL contenant des informations complémentaires

- les possibilités de restriction d'accès supportées par ce robot : robots.txt ou META ou autres

- le UserAgent à utiliser dans le robots.txt

- la date de mise à jour

Merci de nous donner vos avis, critiques et suggestions.

Jean-Luc

Modifié par Jeanluc
Lien vers le commentaire
Partager sur d’autres sites

Super boulot Jean Luc ;) La mise à jour est-elle automatique?

Quelques petits ajouts extraits sur mes logs persos:

Yahoo:

IP: 202.165.x, 66.196.x, 202.160.x, 66.228.x

MSN:

IP: 207.46.x, 207.68.x, 64.4.8.x

Lien vers le commentaire
Partager sur d’autres sites

Excellent en effet. Bravo Jeanluc! :hourra:

Si cette liste n'est pas aussi exhaustive que certaines que j'ai pu voir, en terme de nombre de robots listés, la tienne a l'avantage par rapport à celles-ci d'être plus précise et plus agréable à consulter.

Félicitations, je l'ajoute également à mes bookmarks!

Lien vers le commentaire
Partager sur d’autres sites

La mise à jour est-elle automatique?

Le système est partiellement automatisé. Je pense qu'on va rester avec un système qui combine scripts et intervention humaine, même si nous optimisons progressivement les scripts pour réduire au maximum les besoins de "vérifications humaines".

Jean-Luc

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...