Aller au contenu

Htaccess, bloquer ou autoriser les robots


jmi

Sujets conseillés

Bonjour,

Nous avons constaté que sur nos sites, la plupart des affichages de page étaient générés par les robots, qui pour la grande majorité ne doivent pas présenter un grand intérêt.

Quel technique peut-être judicieuse afin d'éviter que ces robots ne monopolisent les ressources serveur au détriment des internautes ?

En vous remerciant

Jmi

Lien vers le commentaire
Partager sur d’autres sites

Bonjour jmi,

Par robots, il faut distinguer les bots des moteurs de recherche et les autres (aspirateurs de site, etc.).

Utiliser un .htaccess est une solution. Mais elle implique d'avoir au préalable identifié les robots non désiré.

Tu trouveras ton bonheur sur ce site.

Il existe, sauf erreur, d'autres méthodes, notamment au niveau du serveur d'hébergement (donc en amont du htaccess). Mais je ne suis assez calé pour t'en parler, je laisse cela aux spécialistes :)

++

Patrick

Lien vers le commentaire
Partager sur d’autres sites

Bonjour Patrick,

Utiliser un .htaccess est une solution. Mais elle implique d'avoir au préalable identifié les robots non désiré.

Merci pour cette url, j'en avais une aussi dans le temps mais le site est en page parking :-(...

N'y aurait-il pas la solution inverse, avoir une liste de robots des moteurs désirés et on refuse les autres, risqué ?

Merci a vous

Lien vers le commentaire
Partager sur d’autres sites

N'y aurait-il pas la solution inverse, avoir une liste de robots des moteurs désirés et on refuse les autres, risqué ?
Ce sera obligatoirement: moteurs désirés + navigateurs désirés. Cela va faire du monde et cela ne me semble pas gérable au niveau du .htaccess.

Au niveau du robots.txt, on s'adresse uniquement aux robots et on peut y placer une liste de robots autorisés à l'exclusion de tout autre. La difficulté ici est que seuls les robots "honnêtes" respectent robots.txt et les plus nuisibles n'en tiendront aucun compte.

Il faut bien considérer le rapport "coût lié à la présence de ces robots" / "coût pour les éliminer". Avec les tarfis de bande passante et les prix d'hébergements actuels, il y a pas mal de cas où le mieux est d'ignorer ses robots non désirés.

Jean-Luc

Lien vers le commentaire
Partager sur d’autres sites

Bonjour Jean-Luc,

Ce sera obligatoirement: moteurs désirés + navigateurs désirés. Cela va faire du monde et cela ne me semble pas gérable au niveau du .htaccess.

Effectivement, j'avais un peu oublié le cas des navigateurs :whistling::-(, là ça devient nettement moins envisageable...

Au niveau du robots.txt, on s'adresse uniquement aux robots et on peut y placer une liste de robots autorisés à l'exclusion de tout autre. La difficulté ici est que seuls les robots "honnêtes" respectent robots.txt et les plus nuisibles n'en tiendront aucun compte.

Sont pas gentils jusqu'au bout !, je ne me faisais pas d'illusion sur le robots.txt ;-)

Il faut bien considérer le rapport "coût lié à la présence de ces robots" / "coût pour les éliminer". Avec les tarfis de bande passante et les prix d'hébergements actuels, il y a pas mal de cas où le mieux est d'ignorer ses robots non désirés.

Que voulez-vous dire par "coût pour les éliminer" ?

Merci

Lien vers le commentaire
Partager sur d’autres sites

Je veux dire que le temps passé à modifier les .htaccess et/ou les scripts, le fait que cela compliquera éventuellement la maintenance future, l'impact de ces modifications sur les performances, tout cela représente un coût à comparer au bénéfice retiré de l'opération.

Il faut aussi savoir qu'il est impossible d'éliminer tous les mauvais robots. Il y en aura quelqu'uns qui continueront à passer à travers les mailles du filet. Et les développeurs de ces robots font évoluer leurs techniques de sorte que les contremesures devront aussi évoluer pour garder le même niveau d'efficacité

Jean-Luc

Lien vers le commentaire
Partager sur d’autres sites

  • 3 semaines plus tard...

Juste pour vous aider, voilà quelques lignes qui interdisent l'accès à votre site aux principaux robots qui y nuisent. Ces lignes sont à mettre en premier sur votre fichier robots.txt

User-agent: Alexibot
Disallow: /

User-agent: Aqua_Products
Disallow: /

User-agent: asterias
Disallow: /

User-agent: b2w/0.1
Disallow: /

User-agent: BackDoorBot/1.0
Disallow: /

User-agent: BlowFish/1.0
Disallow: /

User-agent: Bookmark search tool
Disallow: /

User-agent: BotALot
Disallow: /

User-agent: BotRightHere
Disallow: /

User-agent: BuiltBotTough
Disallow: /

User-agent: Bullseye/1.0
Disallow: /

User-agent: BunnySlippers
Disallow: /

User-agent: CheeseBot
Disallow: /

User-agent: CherryPicker
Disallow: /

User-agent: CherryPickerElite/1.0
Disallow: /

User-agent: CherryPickerSE/1.0
Disallow: /

User-agent: Copernic
Disallow: /

User-agent: CopyRightCheck
Disallow: /

User-agent: cosmos
Disallow: /

User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
Disallow: /

User-agent: Crescent
Disallow: /

User-agent: DittoSpyder
Disallow: /

User-agent: EmailCollector
Disallow: /

User-agent: EmailSiphon
Disallow: /

User-agent: EmailWolf
Disallow: /

User-agent: EroCrawler
Disallow: /

User-agent: ExtractorPro
Disallow: /

User-agent: FairAd Client
Disallow: /

User-agent: Flaming AttackBot
Disallow: /

User-agent: Foobot
Disallow: /

User-agent: Gaisbot
Disallow: /

User-agent: GetRight/4.2
Disallow: /

User-agent: Harvest/1.5
Disallow: /

User-agent: hloader
Disallow: /

User-agent: httplib
Disallow: /

User-agent: HTTrack 3.0
Disallow: /

User-agent: humanlinks
Disallow: /

User-agent: InfoNaviRobot
Disallow: /

User-agent: Iron33/1.0.2
Disallow: /

User-agent: JennyBot
Disallow: /

User-agent: Kenjin Spider
Disallow: /

User-agent: Keyword Density/0.9
Disallow: /

User-agent: larbin
Disallow: /

User-agent: LexiBot
Disallow: /

User-agent: libWeb/clsHTTP
Disallow: /

User-agent: LinkextractorPro
Disallow: /

User-agent: LinkScan/8.1a Unix
Disallow: /

User-agent: LinkWalker
Disallow: /

User-agent: LNSpiderguy
Disallow: /

User-agent: lwp-trivial/1.34
Disallow: /

User-agent: lwp-trivial
Disallow: /

User-agent: Mata Hari
Disallow: /

User-agent: Microsoft URL Control - 5.01.4511
Disallow: /

User-agent: Microsoft URL Control - 6.00.8169
Disallow: /

User-agent: Microsoft URL Control
Disallow: /

User-agent: MIIxpc/4.2
Disallow: /

User-agent: MIIxpc
Disallow: /

User-agent: Mister PiX
Disallow: /

User-agent: moget/2.1
Disallow: /

User-agent: moget
Disallow: /

User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: NetAnts
Disallow: /

User-agent: NICErsPRO
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: Openbot
Disallow: /

User-agent: Openfind data gatherer
Disallow: /

User-agent: Openfind
Disallow: /

User-agent: Oracle Ultra Search
Disallow: /

User-agent: PerMan
Disallow: /

User-agent: ProPowerBot/2.14
Disallow: /

User-agent: ProWebWalker
Disallow: /

User-agent: psbot
Disallow: /

User-agent: Python-urllib
Disallow: /

User-agent: QueryN Metasearch
Disallow: /

User-agent: Radiation Retriever 1.1
Disallow: /

User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /

User-agent: RepoMonkey
Disallow: /

User-agent: RMA
Disallow: /

User-agent: searchpreview
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: SpankBot
Disallow: /

User-agent: spanner
Disallow: /

User-agent: suzuran
Disallow: /

User-agent: Szukacz/1.4
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: Telesoft
Disallow: /

User-agent: The Intraformant
Disallow: /

User-agent: TheNomad
Disallow: /

User-agent: TightTwatBot
Disallow: /

User-agent: toCrawl/UrlDispatcher
Disallow: /

User-agent: True_Robot/1.0
Disallow: /

User-agent: True_Robot
Disallow: /

User-agent: turingos
Disallow: /

User-agent: TurnitinBot/1.5
Disallow: /

User-agent: TurnitinBot
Disallow: /

User-agent: URL Control
Disallow: /

User-agent: URL_Spider_Pro
Disallow: /

User-agent: URLy Warning
Disallow: /

User-agent: VCI WebViewer VCI WebViewer Win32
Disallow: /

User-agent: VCI
Disallow: /

User-agent: Web Image Collector
Disallow: /

User-agent: WebAuto
Disallow: /

User-agent: WebBandit/3.50
Disallow: /

User-agent: WebBandit
Disallow: /

User-agent: WebCapture 2.0
Disallow: /

User-agent: WebCopier v.2.2
Disallow: /

User-agent: WebCopier v3.2a
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: WebEnhancer
Disallow: /

User-agent: WebSauger
Disallow: /

User-agent: Website Quester
Disallow: /

User-agent: Webster Pro
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: WebZip/4.0
Disallow: /

User-agent: WebZIP/4.21
Disallow: /

User-agent: WebZIP/5.0
Disallow: /

User-agent: WebZip
Disallow: /

User-agent: Wget/1.5.3
Disallow: /

User-agent: Wget/1.6
Disallow: /

User-agent: Wget
Disallow: /

User-agent: wget
Disallow: /

User-agent: WWW-Collector-E
Disallow: /

User-agent: Xenu's Link Sleuth 1.1c
Disallow: /

User-agent: Xenu's
Disallow: /

User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /

User-agent: Zeus Link Scout
Disallow: /

User-agent: Zeus
Disallow: /

Lien vers le commentaire
Partager sur d’autres sites

Juste pour vous aider, voilà quelques lignes qui interdisent l'accès à votre site aux principaux robots qui y nuisent. Ces lignes sont à mettre en premier sur votre fichier robots.txt
Bonjour,

C'est une liste que tu as créée toi-même ou que tu as recopiée ? Si c'est une copie (comme je le pense), ce serait sympa d'indiquer la source.

Je ne vais pas y aller par quatre chemins. Au départ, ce genre de liste a été créée par une personne compétente, puis modifiée par des personnes qui le sont moins. Finalement, c'est devenu du n'importe quoi.

Questions:

- Pourquoi recommandes-tu de mettre ces lignes "en premier" ? En quoi la position des lignes dans robots.txt a-t-elle de l'importance ?

- Pourquoi indiques-tu un numéro de version pour certains robots ? As-tu une information précise qui indique que cela est utile ?

- Pourquoi ne regroupes-tu pas les différents user-agent ?

Jean-Luc

Lien vers le commentaire
Partager sur d’autres sites

Bonjour,

C'est une liste que tu as créée toi-même ou que tu as recopiée ? Si c'est une copie (comme je le pense), ce serait sympa d'indiquer la source.

Bonjour Jean-Luc. En effet, cette liste a été recopiée à partir d'un fichier robots.txt généré par un des meilleurs plugins pour WordPress. J'ai bien pris le temps de la vérifier, et l'utilise sur presque tous les sites web que je gère.

- Pourquoi recommandes-tu de mettre ces lignes "en premier" ? En quoi la position des lignes dans robots.txt a-t-elle de l'importance ?

Parce qu'il est toujours conseillé de commencer par les interdictions, avant d'autoriser le reste des moteurs et des bots à accéder au contenu. D'ailleurs, certains bots ne prennent pas la peine de lire tout le fichier robots.txt et se contentent des premières lignes. S'ils y trouvent une autorisation d'accéder au contenu, ils peuvent y accéder.

Enfin, en scannant les deux fichiers (lignes en premier, et lignes en dernier) sur Google Webmasters Tools, celui-ci affiche que tous les deux sont valides.

- Pourquoi indiques-tu un numéro de version pour certains robots ? As-tu une information précise qui indique que cela est utile ?

Certains bots indiquent le numéro de leurs versions dans le nom qu'ils déclarent en visitant le site. De ce fait, si l'on ne cite pas le nom complet de tous les bots, cela ne les empêchera pas d'accéder au contenu.

- Pourquoi ne regroupes-tu pas les différents user-agent ?

Tout simplement parce que certains robots n'interprètent pas le fichier robots.txt de cette manière. Il vaut mieux écrire ce fichier dans sa forme classique qui est :

User-agent: Nom du robot

Disallow : dossier à interdire

Enfin, et comme je l'ai précisé sur mon post de présentation (qui a été supprimé), je ne dis pas tout savoir ni tout connaître.

Sandrine

Lien vers le commentaire
Partager sur d’autres sites

Ils utilisent tant de ressource que cela les robots qui parcourt le site ?

Certes ça fausse un peu les stats mais je me demande si cela vaut vraiment la peine de se battre contre eux...

Bonjour.

Ce n'est véritablement pas les statistiques qui dérangent, mais deux autres choses :

1 - Certains robots recopient votre site et le télécharge vers un serveur ou un ordinateur. Ensuite, quiconque pourrait y faire des modifications et l'uploader comme s'il s'agissait de son propre site. Ainsi, vous vous aurez donné du mal (et peut être de l'argent) dans la conception et la réalisation de votre site, et qu'un voleur vienne dire que c'est le sien.

Dans le cas des entreprises, c'est comme cela que le phishing se produit. Une personne ou un robot aspire une page de login ou un formulaire, modifie son code, et l'uploade sur une adresse qui ressemble à celle du site source.

Cela peut également nuire à l'image des entreprises ou de faire passer des escrocs pour des entreprises qu'ils ne sont pas.

2 - Dans certains cas où le trafic et la bande passante sont limités, cela devient très très génant, surtout si le site internet pèse quelques giga-octets (des vidéos, ou des fichiers par exemple). En visitant le site, le robot les aspire en un coup. Il consomme votre trafic (qui est limité dans la plupart des cas), et ralenti les téléchargements par des personnes à qui vous autorisez l'accès à ces fichiers.

Cela c'est sans parler de ce que peuvent contenir ces fichiers qui peuvent être des atouts de votre site, et qui peuvent se retrouver du jour au lendemain gratuits et libres sur la toile.

Lien vers le commentaire
Partager sur d’autres sites

Enfin, et comme je l'ai précisé sur mon post de présentation (qui a été supprimé), je ne dis pas tout savoir ni tout connaître.
Bien entendu et je ne prétends pas tout savoir non plus, mais on ne rend pas service quand on présente comme vérifiées des choses qui ne le sont pas. Je me limiterai à deux exemples:

1. Xenu

Ton robots.txt contient:

User-agent: Xenu's Link Sleuth 1.1c
Disallow: /

User-agent: Xenu's
Disallow: /

Le site officiel de Xenu dit:

Things I will do in the future (maybe when hell freezes over!):

ROBOTS.TXT support

Donc robots.txt n'a aucun effet sur Xenu.

2. Turnitin

Ton robots.txt contient:

User-agent: TurnitinBot/1.5
Disallow: /

User-agent: TurnitinBot
Disallow: /

La FAQ de Turnitinbot dit:

To exclude TurnitinBot from all or portions of your site all you have to to do is create a file called robots.txt and put it in the top most directory of your web site.

Below is an example of a robots.txt file which exludes ONLY our robot from a portion or all of your site.

#This is an example robots.txt file

User-agent: TurnitinBot

Disallow: /hide/ #Will disallow any url starting with /hide/

#This is an example robots.txt file

User-agent: TurnitinBot

Disallow: / #Will disallow all urls on your site

Donc pour Turnitin, pas besoin du numéro de version.

En effet, cette liste a été recopiée à partir d'un fichier robots.txt généré par un des meilleurs plugins pour WordPress. J'ai bien pris le temps de la vérifier
:nonono:

Jean-Luc

Lien vers le commentaire
Partager sur d’autres sites

J'ajouterai que le robots.txt n'est qu'un moyen de préciser ce qu'on ne veut pas que les robots fassent, mais qu'il n'est aucunement un système de blocage. En gros, si un robot malintentionné veut bien capturer l'intégralité de ton site alors que tu lui en interdis l'accès, il peut le faire malgré tout.

De plus, indiquer dans le robots.txt les urls sensibles est dangereux : une personne malintentionnée pourrait s'en servir pour "deviner" facilement les urls de ces pages.

Lien vers le commentaire
Partager sur d’autres sites

Ce n'est véritablement pas les statistiques qui dérangent, mais deux autres choses :

1 - Certains robots recopient votre site et le télécharge vers un serveur ou un ordinateur. Ensuite, quiconque pourrait y faire des modifications et l'uploader comme s'il s'agissait de son propre site. Ainsi, vous vous aurez donné du mal (et peut être de l'argent) dans la conception et la réalisation de votre site, et qu'un voleur vienne dire que c'est le sien.

Dans le cas des entreprises, c'est comme cela que le phishing se produit. Une personne ou un robot aspire une page de login ou un formulaire, modifie son code, et l'uploade sur une adresse qui ressemble à celle du site source.

Cela peut également nuire à l'image des entreprises ou de faire passer des escrocs pour des entreprises qu'ils ne sont pas.

2 - Dans certains cas où le trafic et la bande passante sont limités, cela devient très très génant, surtout si le site internet pèse quelques giga-octets (des vidéos, ou des fichiers par exemple). En visitant le site, le robot les aspire en un coup. Il consomme votre trafic (qui est limité dans la plupart des cas), et ralenti les téléchargements par des personnes à qui vous autorisez l'accès à ces fichiers.

Cela c'est sans parler de ce que peuvent contenir ces fichiers qui peuvent être des atouts de votre site, et qui peuvent se retrouver du jour au lendemain gratuits et libres sur la toile.

Bonjour,

toute cette argumentation est fausse, sauf en ce qui concerne la bande passante. Toute le reste peut être fait "à la main" donc robots.txt ou pas, rien n'empêchera un quelconque webmaster de reprendre le contenu de ton site et de se l'approprier, si telle est son intention.

++

Patrick

Lien vers le commentaire
Partager sur d’autres sites

Bonjour

D'ailleurs, certains bots ne prennent pas la peine de lire tout le fichier robots.txt et se contentent des premières lignes.
Qui sont ces "certains robots" ?

Peux-tu nous communiquer ta source pour cette information ?

D'avance merci :)

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...