Aller au contenu

MSIECrawler


Urban

Sujets conseillés

Ceci n'est pas exactement un problème de référencement, mais de crawler. Depuis quelques jours, j'ai un internaute qui crawl certains sites chaque jour dans leur totalité avec l'user agent :

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Wanadoo 6.7; .NET CLR 1.1.4322; MSIECrawler)

Je pense qu'il a choisi de rendre dispo offline les sites en question. Es-ce un fonctionement normal ? Chaque fois qu'il se connecte il crawl la totalité des sites ?

Avez vous eu ce genre de problème ? Qu'avez-vous fait ? Rien ? Rewritecond sur l'UA ? robots.txt (j'ai cru comprendre que ce crawler respectait robots.txt) ?

Lien vers le commentaire
Partager sur d’autres sites

Salut

Il me semble, sans vouloir dire de sonnerie (avec un s comme crocodile :ph34r:), qu'il s'agit d'un Internet Explorer 6 tout ce qu'il y a de plus normal.. sauf qu'il s'agit de sa fonctionnalité d'aspirateur pour une consultation hors-ligne :unsure:

Maintenant, s'il s'avère que çà te bouffe trop de bande passante, tu peux virer d'une ligne de .htaccess (en vérifiant la présence de "MSIECrawler" dans l'User-Agent) :)

Lien vers le commentaire
Partager sur d’autres sites

Posté (modifié)

Oui c'est bien l'aspi de msie, mais c'est normal qu'il ré-aspire tous les jours les sites dans leur totalité ? C'était surtout la le sens de ma question. Effectivement s'il continu tous les jours, je le bloquerais :twisted:

Modifié par Urban
Lien vers le commentaire
Partager sur d’autres sites

Si c'est la même IP, c'est soit un petit malin, soit quelqu'un qui n'a rien compris.

Quoiqu'il en soit, si ça te bouffe vraiment trop de bande passante il faut toujours se rappeler que ton site c'est comme chez toi: tu en es le propriétaire et tu invites qui tu veux. Si quelqu'un vient juste pour y mettre le bazar, il n'y a pas de remords à avoir, tu le rediriges autre part ou tu lui interdis purement et simplement l'accès.

Une bonne technique dans ces cas-là consite à s'ouvrir un espace chez un hébergeur gratuit, ou bien d'utiliser les pages persos de son FAI; d'y mettre un message explicatif du type "vous utilisez vraisemblablement un aspirateur de site et çà ruine ma bande passante patati patata... Si vous tombez là par erreur, contactez-moi..."; et de rediriger tout ce qui ressemble à un aspirateur vers cette page.

Dans le cas de l'aspirateur intégré à MSIE, ce code dans un .htaccess devrait faire l'affaire

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Mozilla$MSIECrawler$
RewriteRule ^.*$ http://autre-part.tld [L,R]

Comme il est de bon ton de citer ses sources, je me suis inspiré pour ce code d'une discussion chez Invisionboard.fr intitulée Rediriger les aspirateurs de site. Cette discussion tire elle-même parti de la liste des aspirateurs de site de toulouse-renaissance.net (attention, un &$@^# de javascript modifie la taille de la fenêtre <_<)

Quant à savoir si c'est normal que MSIECrawler se retape le site dans son intégralité à chaque passage, je ne saurais pas te répondre, ça fait bien longtemps que je n'ai plus aucune station de travail sous Windows :ph34r:

Ce qui est sûr, c'est que MSIECrawler ne se lance pas tous les jours tout seul vers ton site: c'est forcément quelqu'un qui lance l'aspiration.

Lien vers le commentaire
Partager sur d’autres sites

Posté (modifié)

J'ai l'impression que chaque fois que la personne se connecte ça ré-aspire la totalité des sites. Je vais effectivement faire une redirection. Ce n'est pas toujours exactement la même ip mais toujours une adresse wanadoo à Marseille.

Edit:

J'ai choisi de faire comme ça finalement

RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*MSIECrawler
RewriteRule ^(.*) - [F]

Modifié par Urban
Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...