Version complète: sur le forum Webmaster Hub : IP bizarre
Webmaster Hub > Accueil > Le salon de Webmaster Hub
xpatval
'Soir,

L'un de mes sites reçoit la visite régulière d'une chose (robot ?) qui me laisse perplexe.
Voici le résultat du whois:
CODE

OrgName: Performance Systems International Inc.
OrgID: PSI
Address: 1015 31st St NW
City: Washington
StateProv: DC
PostalCode: 20007
Country: US

NetRange: 38.0.0.0 - 38.255.255.255
CIDR: 38.0.0.0/8
NetName: PSINETA
NetHandle: NET-38-0-0-0-1
Parent:
NetType: Direct Allocation
NameServer: NS.PSI.NET
NameServer: NS2.PSI.NET
Comment: Reassignment information for this block can be found at
Comment: rwhois.cogentco.com 4321
RegDate: 1991-04-16
Updated: 2005-10-05

RTechHandle: PSI-NISC-ARIN
RTechName: IP Allocation
RTechPhone: +1-877-875-4311
RTechEmail: ipalloc_AT_cogentco.com

OrgAbuseHandle: COGEN-ARIN
OrgAbuseName: Cogent Abuse
OrgAbusePhone: +1-877-875-4311
OrgAbuseEmail: abuse_AT_cogentco.com

OrgNOCHandle: ZC108-ARIN
OrgNOCName: Cogent Communications
OrgNOCPhone: +1-877-875-4311
OrgNOCEmail: noc_AT_cogentco.com

OrgTechHandle: IPALL-ARIN
OrgTechName: IP Allocation
OrgTechPhone: +1-877-875-4311
OrgTechEmail: ipalloc_AT_cogentco.com


Connaissez-vous ?

xpatval
Jeanluc
Bonjour,

Je suppose que tu parles de Snapbot.

Je cherche, je cherche, mais je n'ai toujours pas de certitude. La piste la plus vraisemblable mène vers snap.com, mais il n'est pas question de ce bot sur leur site.

Jean-Luc
Dudu
Salut

Il est répertorié comme robot malveillant sur l'éminent Psychedelix.com qui me sert de base de référence quand je croise des user-agents pas clairs.

D'ailleurs il fait partie des IPs que je vire systématiquement de chaque site: il prend plus d'une page à la seconde et ne dit pas d'où il vient, çà me suffit largement pour le considérer comme indésirable.

À mon avis: take it out ! wink.gif
xpatval
Ah ben merci à tous les deux car ma petite recherche sur GG m'amenait à penser que c'était une m...e. Mais sans certitude, j'avais posté.

Dudu, c'est effectivement le cas, une page crawlée toutes les x secondes , sans information de provenance.

Pour info (pour les autres hubiens), la plage d'IP va de 38.0.0.0 à 38.255.255.255.
Et un autre qui balaie aussi les pages, (BB2), sans provenance affichée, allant de 66.234.128.0 à 66.234.159.255

J'exclus les deux.

Merci,

xpatval
Jeanluc
Exclure la plage d'IP complète de PSI qui est un grand ISP américain ne me semble pas la meilleure solution. Je conseillerais plutôt de faire l'exclusion sur base du user-agent.

Jean-Luc
xpatval
Je vais robots.txtiser sur les deux user-agent en question. wink.gif

xpatval
captain_torche
Heu ... je m'y connais pas encore super-bien, mais le fait d'interdire le crawl à un robot malveillant, uniquement sur le robots.txt (fichier d'indication seulement), ne me semble pas une manipulation hyper-sécurisée.
Je pense qu'il vaudrait mieux le faire dans un .htaccess
Jeanluc
CITATION(xpatval @ lundi 26 juin 2006, 09h47) *
Je vais robots.txtiser sur les deux user-agent en question.

Je n'avais pas compris qu'il y avait deux user-agents différents ?

- robots.txt : le robot le respecte, s'il le souhaite.

- .htaccess : le serveur web laisse le robot visiter le site ou pas.

Jean-Luc
Dudu
CITATION(Jeanluc @ lundi 26 juin 2006, 10h21) *
Je n'avais pas compris qu'il y avait deux user-agents différents ?
Il y a "snap.com beta crawler v0" et "Snapbot/1.0"
(http://www.psychedelix.com/agents/index.shtml?n_s smile.gif)

Pour ma part, je regarde en PHP dans l'UA si le mot "snap" est présent en sous-chaîne. Si oui: 403 Forbidden cool.gif

Il y a possibilité aussi de se baser sur les IPs trouvées par Psychedelix pour ces deux user-agents: 66.234.139.xxx
Cela devrait permettre de virer les intrus sans toutefois perdre de réels visiteurs (mais je n'utilise pas cette technique).

En tous cas, non Snapbot -ou quel que soit son nom- ne respecte pas les directives du robots.txt (encore une raison supplémentaire pour le raccompagner à la porte) donc inutile de vouloir le "robots.txtiser" wink.gif
Jeanluc
Infos recueillies à la source :
CITATION
Jean-Luc,

In answer to your question, yes, Snapbot/1.0 does adhere to the robot
exclusion standard.

Brad
Snap Customer Service

> [brad - Mon Jun 26 09:20:12 2006]:
>
> Jean-Luc,
>
> Yes, Snapbot/1.0 is our crawler.
>
> I believe it adheres to the robot exclusion standard, but I will check
> and get back to you.
>
> Brad
> Snap Customer Service


Je suppose que snap.com beta crawler v0 est une ancienne version de Snapbot/1.0 qui est le seul que je vois circuler actuellement.

Jean-Luc
xpatval
CITATION(Dudu @ lundi 26 juin 2006, 14h05) *
IEn tous cas, non Snapbot -ou quel que soit son nom- ne respecte pas les directives du robots.txt (encore une raison supplémentaire pour le raccompagner à la porte) donc inutile de vouloir le "robots.txtiser" wink.gif

Donc, il vaut mieux les .htaccessiser plutôt qu'utiliser le robots.txt ?
Jeanluc
.htaccess est toujours plus sûr que robots.txt qui suppose de faire confiance au propriétaire du robot. Dans un mail reçu aujourd'hui, il affirme respecter robots.txt. A priori quand un propriétaire de robot répond aux emails, c'est bon signe, mais c'est à toi de décider.

Jean-Luc
Ceci est une version "bas débit" de notre forum. Pour voir la version complète avec plus d'information, la mise en page et les images, veuillez cliquer ici.