Htaccess, bloquer ou autoriser les robots
#1
Posté 29 septembre 2010 - 14:15
Nous avons constaté que sur nos sites, la plupart des affichages de page étaient générés par les robots, qui pour la grande majorité ne doivent pas présenter un grand intérêt.
Quel technique peut-être judicieuse afin d'éviter que ces robots ne monopolisent les ressources serveur au détriment des internautes ?
En vous remerciant
Jmi
#2
Posté 29 septembre 2010 - 17:24
Par robots, il faut distinguer les bots des moteurs de recherche et les autres (aspirateurs de site, etc.).
Utiliser un .htaccess est une solution. Mais elle implique d'avoir au préalable identifié les robots non désiré.
Tu trouveras ton bonheur sur ce site.
Il existe, sauf erreur, d'autres méthodes, notamment au niveau du serveur d'hébergement (donc en amont du htaccess). Mais je ne suis assez calé pour t'en parler, je laisse cela aux spécialistes
++
Patrick
Référencement avec paiement aux résultats, la première page de Google sinon rien !
Référencement pour TPE, PME/PMI et grands comptes.
Adifco est un organisme de formation agréé: HTML, CSS, PHP, MySQL, SEO, SEA, etc.
#3
Posté 30 septembre 2010 - 07:33
Patrick, le 29 septembre 2010 - 17:24, dit :
Merci pour cette url, j'en avais une aussi dans le temps mais le site est en page parking :-(...
N'y aurait-il pas la solution inverse, avoir une liste de robots des moteurs désirés et on refuse les autres, risqué ?
Merci a vous
#4
Posté 30 septembre 2010 - 08:55
jmi, le 30 septembre 2010 - 07:33, dit :
Au niveau du robots.txt, on s'adresse uniquement aux robots et on peut y placer une liste de robots autorisés à l'exclusion de tout autre. La difficulté ici est que seuls les robots "honnêtes" respectent robots.txt et les plus nuisibles n'en tiendront aucun compte.
Il faut bien considérer le rapport "coût lié à la présence de ces robots" / "coût pour les éliminer". Avec les tarfis de bande passante et les prix d'hébergements actuels, il y a pas mal de cas où le mieux est d'ignorer ses robots non désirés.
Jean-Luc
Testeur de redirection (301, 302, meta refresh,...)
Le Grand Annuaire : comme DMOZ, mais avec indexation super-rapide
#5
Posté 30 septembre 2010 - 13:02
Jeanluc, le 30 septembre 2010 - 08:55, dit :
Effectivement, j'avais un peu oublié le cas des navigateurs
Jeanluc, le 30 septembre 2010 - 08:55, dit :
Sont pas gentils jusqu'au bout !, je ne me faisais pas d'illusion sur le robots.txt ;-)
Jeanluc, le 30 septembre 2010 - 08:55, dit :
Que voulez-vous dire par "coût pour les éliminer" ?
Merci
#6
Posté 30 septembre 2010 - 13:18
Il faut aussi savoir qu'il est impossible d'éliminer tous les mauvais robots. Il y en aura quelqu'uns qui continueront à passer à travers les mailles du filet. Et les développeurs de ces robots font évoluer leurs techniques de sorte que les contremesures devront aussi évoluer pour garder le même niveau d'efficacité
Jean-Luc
Testeur de redirection (301, 302, meta refresh,...)
Le Grand Annuaire : comme DMOZ, mais avec indexation super-rapide
#8
Posté 18 octobre 2010 - 02:58
User-agent: Alexibot Disallow: / User-agent: Aqua_Products Disallow: / User-agent: asterias Disallow: / User-agent: b2w/0.1 Disallow: / User-agent: BackDoorBot/1.0 Disallow: / User-agent: BlowFish/1.0 Disallow: / User-agent: Bookmark search tool Disallow: / User-agent: BotALot Disallow: / User-agent: BotRightHere Disallow: / User-agent: BuiltBotTough Disallow: / User-agent: Bullseye/1.0 Disallow: / User-agent: BunnySlippers Disallow: / User-agent: CheeseBot Disallow: / User-agent: CherryPicker Disallow: / User-agent: CherryPickerElite/1.0 Disallow: / User-agent: CherryPickerSE/1.0 Disallow: / User-agent: Copernic Disallow: / User-agent: CopyRightCheck Disallow: / User-agent: cosmos Disallow: / User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0 Disallow: / User-agent: Crescent Disallow: / User-agent: DittoSpyder Disallow: / User-agent: EmailCollector Disallow: / User-agent: EmailSiphon Disallow: / User-agent: EmailWolf Disallow: / User-agent: EroCrawler Disallow: / User-agent: ExtractorPro Disallow: / User-agent: FairAd Client Disallow: / User-agent: Flaming AttackBot Disallow: / User-agent: Foobot Disallow: / User-agent: Gaisbot Disallow: / User-agent: GetRight/4.2 Disallow: / User-agent: Harvest/1.5 Disallow: / User-agent: hloader Disallow: / User-agent: httplib Disallow: / User-agent: HTTrack 3.0 Disallow: / User-agent: humanlinks Disallow: / User-agent: InfoNaviRobot Disallow: / User-agent: Iron33/1.0.2 Disallow: / User-agent: JennyBot Disallow: / User-agent: Kenjin Spider Disallow: / User-agent: Keyword Density/0.9 Disallow: / User-agent: larbin Disallow: / User-agent: LexiBot Disallow: / User-agent: libWeb/clsHTTP Disallow: / User-agent: LinkextractorPro Disallow: / User-agent: LinkScan/8.1a Unix Disallow: / User-agent: LinkWalker Disallow: / User-agent: LNSpiderguy Disallow: / User-agent: lwp-trivial/1.34 Disallow: / User-agent: lwp-trivial Disallow: / User-agent: Mata Hari Disallow: / User-agent: Microsoft URL Control - 5.01.4511 Disallow: / User-agent: Microsoft URL Control - 6.00.8169 Disallow: / User-agent: Microsoft URL Control Disallow: / User-agent: MIIxpc/4.2 Disallow: / User-agent: MIIxpc Disallow: / User-agent: Mister PiX Disallow: / User-agent: moget/2.1 Disallow: / User-agent: moget Disallow: / User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95) Disallow: / User-agent: MSIECrawler Disallow: / User-agent: NetAnts Disallow: / User-agent: NICErsPRO Disallow: / User-agent: Offline Explorer Disallow: / User-agent: Openbot Disallow: / User-agent: Openfind data gatherer Disallow: / User-agent: Openfind Disallow: / User-agent: Oracle Ultra Search Disallow: / User-agent: PerMan Disallow: / User-agent: ProPowerBot/2.14 Disallow: / User-agent: ProWebWalker Disallow: / User-agent: psbot Disallow: / User-agent: Python-urllib Disallow: / User-agent: QueryN Metasearch Disallow: / User-agent: Radiation Retriever 1.1 Disallow: / User-agent: RepoMonkey Bait & Tackle/v1.01 Disallow: / User-agent: RepoMonkey Disallow: / User-agent: RMA Disallow: / User-agent: searchpreview Disallow: / User-agent: SiteSnagger Disallow: / User-agent: SpankBot Disallow: / User-agent: spanner Disallow: / User-agent: suzuran Disallow: / User-agent: Szukacz/1.4 Disallow: / User-agent: Teleport Disallow: / User-agent: TeleportPro Disallow: / User-agent: Telesoft Disallow: / User-agent: The Intraformant Disallow: / User-agent: TheNomad Disallow: / User-agent: TightTwatBot Disallow: / User-agent: toCrawl/UrlDispatcher Disallow: / User-agent: True_Robot/1.0 Disallow: / User-agent: True_Robot Disallow: / User-agent: turingos Disallow: / User-agent: TurnitinBot/1.5 Disallow: / User-agent: TurnitinBot Disallow: / User-agent: URL Control Disallow: / User-agent: URL_Spider_Pro Disallow: / User-agent: URLy Warning Disallow: / User-agent: VCI WebViewer VCI WebViewer Win32 Disallow: / User-agent: VCI Disallow: / User-agent: Web Image Collector Disallow: / User-agent: WebAuto Disallow: / User-agent: WebBandit/3.50 Disallow: / User-agent: WebBandit Disallow: / User-agent: WebCapture 2.0 Disallow: / User-agent: WebCopier v.2.2 Disallow: / User-agent: WebCopier v3.2a Disallow: / User-agent: WebCopier Disallow: / User-agent: WebEnhancer Disallow: / User-agent: WebSauger Disallow: / User-agent: Website Quester Disallow: / User-agent: Webster Pro Disallow: / User-agent: WebStripper Disallow: / User-agent: WebZip/4.0 Disallow: / User-agent: WebZIP/4.21 Disallow: / User-agent: WebZIP/5.0 Disallow: / User-agent: WebZip Disallow: / User-agent: Wget/1.5.3 Disallow: / User-agent: Wget/1.6 Disallow: / User-agent: Wget Disallow: / User-agent: wget Disallow: / User-agent: WWW-Collector-E Disallow: / User-agent: Xenu's Link Sleuth 1.1c Disallow: / User-agent: Xenu's Disallow: / User-agent: Zeus 32297 Webster Pro V2.9 Win32 Disallow: / User-agent: Zeus Link Scout Disallow: / User-agent: Zeus Disallow: /
#9
Posté 18 octobre 2010 - 07:07
smaciani, le 18 octobre 2010 - 02:58, dit :
C'est une liste que tu as créée toi-même ou que tu as recopiée ? Si c'est une copie (comme je le pense), ce serait sympa d'indiquer la source.
Je ne vais pas y aller par quatre chemins. Au départ, ce genre de liste a été créée par une personne compétente, puis modifiée par des personnes qui le sont moins. Finalement, c'est devenu du n'importe quoi.
Questions:
- Pourquoi recommandes-tu de mettre ces lignes "en premier" ? En quoi la position des lignes dans robots.txt a-t-elle de l'importance ?
- Pourquoi indiques-tu un numéro de version pour certains robots ? As-tu une information précise qui indique que cela est utile ?
- Pourquoi ne regroupes-tu pas les différents user-agent ?
Jean-Luc
Testeur de redirection (301, 302, meta refresh,...)
Le Grand Annuaire : comme DMOZ, mais avec indexation super-rapide
#10
Posté 18 octobre 2010 - 10:32
Certes ça fausse un peu les stats mais je me demande si cela vaut vraiment la peine de se battre contre eux...
#11
Posté 18 octobre 2010 - 12:42
Jeanluc, le 18 octobre 2010 - 07:07, dit :
C'est une liste que tu as créée toi-même ou que tu as recopiée ? Si c'est une copie (comme je le pense), ce serait sympa d'indiquer la source.
Bonjour Jean-Luc. En effet, cette liste a été recopiée à partir d'un fichier robots.txt généré par un des meilleurs plugins pour WordPress. J'ai bien pris le temps de la vérifier, et l'utilise sur presque tous les sites web que je gère.
Jeanluc, le 18 octobre 2010 - 07:07, dit :
Parce qu'il est toujours conseillé de commencer par les interdictions, avant d'autoriser le reste des moteurs et des bots à accéder au contenu. D'ailleurs, certains bots ne prennent pas la peine de lire tout le fichier robots.txt et se contentent des premières lignes. S'ils y trouvent une autorisation d'accéder au contenu, ils peuvent y accéder.
Enfin, en scannant les deux fichiers (lignes en premier, et lignes en dernier) sur Google Webmasters Tools, celui-ci affiche que tous les deux sont valides.
Jeanluc, le 18 octobre 2010 - 07:07, dit :
Certains bots indiquent le numéro de leurs versions dans le nom qu'ils déclarent en visitant le site. De ce fait, si l'on ne cite pas le nom complet de tous les bots, cela ne les empêchera pas d'accéder au contenu.
Jeanluc, le 18 octobre 2010 - 07:07, dit :
Tout simplement parce que certains robots n'interprètent pas le fichier robots.txt de cette manière. Il vaut mieux écrire ce fichier dans sa forme classique qui est :
User-agent: Nom du robot
Disallow : dossier à interdire
Enfin, et comme je l'ai précisé sur mon post de présentation (qui a été supprimé), je ne dis pas tout savoir ni tout connaître.
Sandrine
#12
Posté 18 octobre 2010 - 12:48
oliviermaster, le 18 octobre 2010 - 10:32, dit :
Certes ça fausse un peu les stats mais je me demande si cela vaut vraiment la peine de se battre contre eux...
Bonjour.
Ce n'est véritablement pas les statistiques qui dérangent, mais deux autres choses :
1 - Certains robots recopient votre site et le télécharge vers un serveur ou un ordinateur. Ensuite, quiconque pourrait y faire des modifications et l'uploader comme s'il s'agissait de son propre site. Ainsi, vous vous aurez donné du mal (et peut être de l'argent) dans la conception et la réalisation de votre site, et qu'un voleur vienne dire que c'est le sien.
Dans le cas des entreprises, c'est comme cela que le phishing se produit. Une personne ou un robot aspire une page de login ou un formulaire, modifie son code, et l'uploade sur une adresse qui ressemble à celle du site source.
Cela peut également nuire à l'image des entreprises ou de faire passer des escrocs pour des entreprises qu'ils ne sont pas.
2 - Dans certains cas où le trafic et la bande passante sont limités, cela devient très très génant, surtout si le site internet pèse quelques giga-octets (des vidéos, ou des fichiers par exemple). En visitant le site, le robot les aspire en un coup. Il consomme votre trafic (qui est limité dans la plupart des cas), et ralenti les téléchargements par des personnes à qui vous autorisez l'accès à ces fichiers.
Cela c'est sans parler de ce que peuvent contenir ces fichiers qui peuvent être des atouts de votre site, et qui peuvent se retrouver du jour au lendemain gratuits et libres sur la toile.
#13
Posté 18 octobre 2010 - 15:37
smaciani, le 18 octobre 2010 - 12:42, dit :
1. Xenu
Ton robots.txt contient:
User-agent: Xenu's Link Sleuth 1.1c Disallow: / User-agent: Xenu's Disallow: /
Le site officiel de Xenu dit:
Citation
ROBOTS.TXT support
2. Turnitin
Ton robots.txt contient:
User-agent: TurnitinBot/1.5 Disallow: / User-agent: TurnitinBot Disallow: /
La FAQ de Turnitinbot dit:
Citation
Below is an example of a robots.txt file which exludes ONLY our robot from a portion or all of your site.
#This is an example robots.txt file
User-agent: TurnitinBot
Disallow: /hide/ #Will disallow any url starting with /hide/
#This is an example robots.txt file
User-agent: TurnitinBot
Disallow: / #Will disallow all urls on your site
smaciani, le 18 octobre 2010 - 12:42, dit :
Jean-Luc
Testeur de redirection (301, 302, meta refresh,...)
Le Grand Annuaire : comme DMOZ, mais avec indexation super-rapide
#14
Posté 18 octobre 2010 - 22:43
De plus, indiquer dans le robots.txt les urls sensibles est dangereux : une personne malintentionnée pourrait s'en servir pour "deviner" facilement les urls de ces pages.
#15
Posté 19 octobre 2010 - 12:32
smaciani, le 18 octobre 2010 - 12:48, dit :
1 - Certains robots recopient votre site et le télécharge vers un serveur ou un ordinateur. Ensuite, quiconque pourrait y faire des modifications et l'uploader comme s'il s'agissait de son propre site. Ainsi, vous vous aurez donné du mal (et peut être de l'argent) dans la conception et la réalisation de votre site, et qu'un voleur vienne dire que c'est le sien.
Dans le cas des entreprises, c'est comme cela que le phishing se produit. Une personne ou un robot aspire une page de login ou un formulaire, modifie son code, et l'uploade sur une adresse qui ressemble à celle du site source.
Cela peut également nuire à l'image des entreprises ou de faire passer des escrocs pour des entreprises qu'ils ne sont pas.
2 - Dans certains cas où le trafic et la bande passante sont limités, cela devient très très génant, surtout si le site internet pèse quelques giga-octets (des vidéos, ou des fichiers par exemple). En visitant le site, le robot les aspire en un coup. Il consomme votre trafic (qui est limité dans la plupart des cas), et ralenti les téléchargements par des personnes à qui vous autorisez l'accès à ces fichiers.
Cela c'est sans parler de ce que peuvent contenir ces fichiers qui peuvent être des atouts de votre site, et qui peuvent se retrouver du jour au lendemain gratuits et libres sur la toile.
Bonjour,
toute cette argumentation est fausse, sauf en ce qui concerne la bande passante. Toute le reste peut être fait "à la main" donc robots.txt ou pas, rien n'empêchera un quelconque webmaster de reprendre le contenu de ton site et de se l'approprier, si telle est son intention.
++
Patrick
Référencement avec paiement aux résultats, la première page de Google sinon rien !
Référencement pour TPE, PME/PMI et grands comptes.
Adifco est un organisme de formation agréé: HTML, CSS, PHP, MySQL, SEO, SEA, etc.
#16
Posté 19 octobre 2010 - 13:00
- ← Cantonner un cookie à son www.domaine
- Les fondations d'un site
- Quel type de serveur pour mes sites ? →



Haut















