Aller au contenu

smaciani

Membres
  • Compteur de contenus

    3
  • Inscrit(e) le

  • Dernière visite

Messages postés par smaciani

  1. Ils utilisent tant de ressource que cela les robots qui parcourt le site ?

    Certes ça fausse un peu les stats mais je me demande si cela vaut vraiment la peine de se battre contre eux...

    Bonjour.

    Ce n'est véritablement pas les statistiques qui dérangent, mais deux autres choses :

    1 - Certains robots recopient votre site et le télécharge vers un serveur ou un ordinateur. Ensuite, quiconque pourrait y faire des modifications et l'uploader comme s'il s'agissait de son propre site. Ainsi, vous vous aurez donné du mal (et peut être de l'argent) dans la conception et la réalisation de votre site, et qu'un voleur vienne dire que c'est le sien.

    Dans le cas des entreprises, c'est comme cela que le phishing se produit. Une personne ou un robot aspire une page de login ou un formulaire, modifie son code, et l'uploade sur une adresse qui ressemble à celle du site source.

    Cela peut également nuire à l'image des entreprises ou de faire passer des escrocs pour des entreprises qu'ils ne sont pas.

    2 - Dans certains cas où le trafic et la bande passante sont limités, cela devient très très génant, surtout si le site internet pèse quelques giga-octets (des vidéos, ou des fichiers par exemple). En visitant le site, le robot les aspire en un coup. Il consomme votre trafic (qui est limité dans la plupart des cas), et ralenti les téléchargements par des personnes à qui vous autorisez l'accès à ces fichiers.

    Cela c'est sans parler de ce que peuvent contenir ces fichiers qui peuvent être des atouts de votre site, et qui peuvent se retrouver du jour au lendemain gratuits et libres sur la toile.

  2. Bonjour,

    C'est une liste que tu as créée toi-même ou que tu as recopiée ? Si c'est une copie (comme je le pense), ce serait sympa d'indiquer la source.

    Bonjour Jean-Luc. En effet, cette liste a été recopiée à partir d'un fichier robots.txt généré par un des meilleurs plugins pour WordPress. J'ai bien pris le temps de la vérifier, et l'utilise sur presque tous les sites web que je gère.

    - Pourquoi recommandes-tu de mettre ces lignes "en premier" ? En quoi la position des lignes dans robots.txt a-t-elle de l'importance ?

    Parce qu'il est toujours conseillé de commencer par les interdictions, avant d'autoriser le reste des moteurs et des bots à accéder au contenu. D'ailleurs, certains bots ne prennent pas la peine de lire tout le fichier robots.txt et se contentent des premières lignes. S'ils y trouvent une autorisation d'accéder au contenu, ils peuvent y accéder.

    Enfin, en scannant les deux fichiers (lignes en premier, et lignes en dernier) sur Google Webmasters Tools, celui-ci affiche que tous les deux sont valides.

    - Pourquoi indiques-tu un numéro de version pour certains robots ? As-tu une information précise qui indique que cela est utile ?

    Certains bots indiquent le numéro de leurs versions dans le nom qu'ils déclarent en visitant le site. De ce fait, si l'on ne cite pas le nom complet de tous les bots, cela ne les empêchera pas d'accéder au contenu.

    - Pourquoi ne regroupes-tu pas les différents user-agent ?

    Tout simplement parce que certains robots n'interprètent pas le fichier robots.txt de cette manière. Il vaut mieux écrire ce fichier dans sa forme classique qui est :

    User-agent: Nom du robot

    Disallow : dossier à interdire

    Enfin, et comme je l'ai précisé sur mon post de présentation (qui a été supprimé), je ne dis pas tout savoir ni tout connaître.

    Sandrine

  3. Juste pour vous aider, voilà quelques lignes qui interdisent l'accès à votre site aux principaux robots qui y nuisent. Ces lignes sont à mettre en premier sur votre fichier robots.txt

    User-agent: Alexibot
    Disallow: /

    User-agent: Aqua_Products
    Disallow: /

    User-agent: asterias
    Disallow: /

    User-agent: b2w/0.1
    Disallow: /

    User-agent: BackDoorBot/1.0
    Disallow: /

    User-agent: BlowFish/1.0
    Disallow: /

    User-agent: Bookmark search tool
    Disallow: /

    User-agent: BotALot
    Disallow: /

    User-agent: BotRightHere
    Disallow: /

    User-agent: BuiltBotTough
    Disallow: /

    User-agent: Bullseye/1.0
    Disallow: /

    User-agent: BunnySlippers
    Disallow: /

    User-agent: CheeseBot
    Disallow: /

    User-agent: CherryPicker
    Disallow: /

    User-agent: CherryPickerElite/1.0
    Disallow: /

    User-agent: CherryPickerSE/1.0
    Disallow: /

    User-agent: Copernic
    Disallow: /

    User-agent: CopyRightCheck
    Disallow: /

    User-agent: cosmos
    Disallow: /

    User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
    Disallow: /

    User-agent: Crescent
    Disallow: /

    User-agent: DittoSpyder
    Disallow: /

    User-agent: EmailCollector
    Disallow: /

    User-agent: EmailSiphon
    Disallow: /

    User-agent: EmailWolf
    Disallow: /

    User-agent: EroCrawler
    Disallow: /

    User-agent: ExtractorPro
    Disallow: /

    User-agent: FairAd Client
    Disallow: /

    User-agent: Flaming AttackBot
    Disallow: /

    User-agent: Foobot
    Disallow: /

    User-agent: Gaisbot
    Disallow: /

    User-agent: GetRight/4.2
    Disallow: /

    User-agent: Harvest/1.5
    Disallow: /

    User-agent: hloader
    Disallow: /

    User-agent: httplib
    Disallow: /

    User-agent: HTTrack 3.0
    Disallow: /

    User-agent: humanlinks
    Disallow: /

    User-agent: InfoNaviRobot
    Disallow: /

    User-agent: Iron33/1.0.2
    Disallow: /

    User-agent: JennyBot
    Disallow: /

    User-agent: Kenjin Spider
    Disallow: /

    User-agent: Keyword Density/0.9
    Disallow: /

    User-agent: larbin
    Disallow: /

    User-agent: LexiBot
    Disallow: /

    User-agent: libWeb/clsHTTP
    Disallow: /

    User-agent: LinkextractorPro
    Disallow: /

    User-agent: LinkScan/8.1a Unix
    Disallow: /

    User-agent: LinkWalker
    Disallow: /

    User-agent: LNSpiderguy
    Disallow: /

    User-agent: lwp-trivial/1.34
    Disallow: /

    User-agent: lwp-trivial
    Disallow: /

    User-agent: Mata Hari
    Disallow: /

    User-agent: Microsoft URL Control - 5.01.4511
    Disallow: /

    User-agent: Microsoft URL Control - 6.00.8169
    Disallow: /

    User-agent: Microsoft URL Control
    Disallow: /

    User-agent: MIIxpc/4.2
    Disallow: /

    User-agent: MIIxpc
    Disallow: /

    User-agent: Mister PiX
    Disallow: /

    User-agent: moget/2.1
    Disallow: /

    User-agent: moget
    Disallow: /

    User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
    Disallow: /

    User-agent: MSIECrawler
    Disallow: /

    User-agent: NetAnts
    Disallow: /

    User-agent: NICErsPRO
    Disallow: /

    User-agent: Offline Explorer
    Disallow: /

    User-agent: Openbot
    Disallow: /

    User-agent: Openfind data gatherer
    Disallow: /

    User-agent: Openfind
    Disallow: /

    User-agent: Oracle Ultra Search
    Disallow: /

    User-agent: PerMan
    Disallow: /

    User-agent: ProPowerBot/2.14
    Disallow: /

    User-agent: ProWebWalker
    Disallow: /

    User-agent: psbot
    Disallow: /

    User-agent: Python-urllib
    Disallow: /

    User-agent: QueryN Metasearch
    Disallow: /

    User-agent: Radiation Retriever 1.1
    Disallow: /

    User-agent: RepoMonkey Bait & Tackle/v1.01
    Disallow: /

    User-agent: RepoMonkey
    Disallow: /

    User-agent: RMA
    Disallow: /

    User-agent: searchpreview
    Disallow: /

    User-agent: SiteSnagger
    Disallow: /

    User-agent: SpankBot
    Disallow: /

    User-agent: spanner
    Disallow: /

    User-agent: suzuran
    Disallow: /

    User-agent: Szukacz/1.4
    Disallow: /

    User-agent: Teleport
    Disallow: /

    User-agent: TeleportPro
    Disallow: /

    User-agent: Telesoft
    Disallow: /

    User-agent: The Intraformant
    Disallow: /

    User-agent: TheNomad
    Disallow: /

    User-agent: TightTwatBot
    Disallow: /

    User-agent: toCrawl/UrlDispatcher
    Disallow: /

    User-agent: True_Robot/1.0
    Disallow: /

    User-agent: True_Robot
    Disallow: /

    User-agent: turingos
    Disallow: /

    User-agent: TurnitinBot/1.5
    Disallow: /

    User-agent: TurnitinBot
    Disallow: /

    User-agent: URL Control
    Disallow: /

    User-agent: URL_Spider_Pro
    Disallow: /

    User-agent: URLy Warning
    Disallow: /

    User-agent: VCI WebViewer VCI WebViewer Win32
    Disallow: /

    User-agent: VCI
    Disallow: /

    User-agent: Web Image Collector
    Disallow: /

    User-agent: WebAuto
    Disallow: /

    User-agent: WebBandit/3.50
    Disallow: /

    User-agent: WebBandit
    Disallow: /

    User-agent: WebCapture 2.0
    Disallow: /

    User-agent: WebCopier v.2.2
    Disallow: /

    User-agent: WebCopier v3.2a
    Disallow: /

    User-agent: WebCopier
    Disallow: /

    User-agent: WebEnhancer
    Disallow: /

    User-agent: WebSauger
    Disallow: /

    User-agent: Website Quester
    Disallow: /

    User-agent: Webster Pro
    Disallow: /

    User-agent: WebStripper
    Disallow: /

    User-agent: WebZip/4.0
    Disallow: /

    User-agent: WebZIP/4.21
    Disallow: /

    User-agent: WebZIP/5.0
    Disallow: /

    User-agent: WebZip
    Disallow: /

    User-agent: Wget/1.5.3
    Disallow: /

    User-agent: Wget/1.6
    Disallow: /

    User-agent: Wget
    Disallow: /

    User-agent: wget
    Disallow: /

    User-agent: WWW-Collector-E
    Disallow: /

    User-agent: Xenu's Link Sleuth 1.1c
    Disallow: /

    User-agent: Xenu's
    Disallow: /

    User-agent: Zeus 32297 Webster Pro V2.9 Win32
    Disallow: /

    User-agent: Zeus Link Scout
    Disallow: /

    User-agent: Zeus
    Disallow: /

×
×
  • Créer...