Aller au contenu

Chercher dans la communauté

Affichage du résultat pour les tags 'robots.txt'.

  • Rechercher par étiquette

    Saisir les étiquettes en les séparant par une virgule.
  • Recherche par auteur

Type du contenu


Forums

  • Accueil
    • Les nouveaux membres se présentent
    • Revues de presse
    • Le salon de Webmaster Hub
    • La tribune de Webmaster Hub
  • Publications et Redirections
    • Référencement et Publicité
    • Droit, Finances et Administration
    • Les techniques de l'Internet
    • Noms de domaines et hébergement
    • La tribune du Hub
  • Création et exploitation de Sites Internet
    • Les langages du Net
    • Les fondations d'un site
    • Accessibilité et Ergonomie Web
    • E-commerce
    • Administration & Droit
    • Systèmes de publication
  • Promotion de Sites Internet
    • Techniques de Référencement
    • Techniques de Promotion
  • Informatique & Internet
    • PC-Gyver
    • Les Navigateurs
  • Les services de Webmaster Hub
    • Infogérance serveurs dédiés
    • Partenariat et échanges de liens
    • Offres et demandes de prestations de service

Rechercher dans...

Chercher ce qui...


Date de création

  • Début

    End


Dernière mise à jour

  • Début

    End


Filtrer par...

Inscrit

  • Début

    End


Groupe


Mon Site


Skype


Localisation


Société

  1. Voilà j'ai souscrit à un pack premium de 1and1 et je compte faire plusieurs sites (3-4) sur cet hébergement. Les redirections de différents domaines peuvent séparer les sites entre eux: à la racine il y a 3 dossiers importants: * logs * test (pour les tests de scripts et autres) * sites, où sont rangés les sites. Chaque site a son propre dossier. Chaque domaine redirigeant sur un site redirigera dans le dossier du site. Ainsi il ne redirigeront jamais à la racine d el'hébergement. Voilà pour l'utilisateur. reste Google.... Comment rendre les sites hermétiques entere eux pour Google. J'ai pensé à un truc. 1. Interdire aux robots de visiter l'hébergement à la racine de l'hébergement 2. A la "racine" de chaque site, faire un robots.txt dédié. Qu'en pensez-vous? Est-ce aussi simple?
  2. Bonjour, Lorsque je consulte mes statistiques je constate que ma page la plus visitée est index.html, or elle n'existe pas. Mon accueille est index.php. Et dans le même temps je constate que googlebot ne consulte presque jamais les autres pages de mon site (effectué une fois) alors qu'il passe au moins une fois par jour depuis environ 2 mois : googlebot.com www.monsite.fr - [02/Jan/2006:01:44:28 +0100] "GET /robots.txt HTTP/1.1" 200 24 googlebot.com www.monsite.fr - [02/Jan/2006:01:44:29 +0100] "GET / HTTP/1.1" 200 1521" puis il s'en va Le problème est-il lié ? D'où viennent ces demandes de la page index.html.
  3. Bonjour, Je souhaite ne pas voir référencer certaines pages de la forme : www.xxxx.com/boutique.php?s=yyyyyyyyyyyyyyyy Est-ce possible dans un robots.txt ?
  4. Bonjour, L'info est étonnante! http://www.webmasterworld.com/robots.txt Brett Tabke, l'admin de wmw annonce la mise en place de ce robots.txt qui bloque l'indexation du site sous le titre :"lets try this for a month or three...": http://www.webmasterworld.com/forum9/9593.htm Ca n'a pas trainé: wmw n'est déjà plus dans google: http://www.google.com/search?hl=fr&q=site%...erworld.com&lr= J'ai beau chercher je ne vois pas ce qui peut le motiver à se tirer une telle balle dans le pied. Un instinct suicidaire? Dan tu essayes quand avec le Hub?
  5. Bonjour, A travers les lectures et les conseils que j'ai pû trouver, j'en ai dégagé les critères importants pour un référencement naturel. Je les ai "classé" par ordre "d'importance", en ayant bien présent à l'esprit que tout cela est très relatif d'un site à l'autre. J'aimerais tout de même avoir l'avis des "pros" par rapport à ce que j'ai pû conclure. Voici ma liste : 1. le contenu 2. la balise <title> 3. les liens entrants et sortants pertinents 4. robots.txt (s'il y a des interdictions) 5. les balises <h1> à <h6> 6. la balise meta "description" 7. la mise à jour des pages 8. la balise meta "keywords" 9. les balises <strong> et <em> Quel est votre avis ?
  6. Salut Je cherche à interdire un type d'URL par l'intermediaire du robots.txt Pour exemple celle ci serait à bannir : http://www.xxxxxx.com/index.php?showtopic=...iew=getlastpost tout en preservant celle ci : http://www.xxxxxx.com/index.php?showtopic=14586 Merci de vos réponses
  7. Bonjour, Je suis hébergé par ovh. Soit MonDomainePrincipale.com. J'ai crée le sous-domaine MultiDomaine.MonDomainePrincipale.com afin de créer le MultiDomaine.com les robots passent sur MultiDomaine.com mais, malheureusement, aussi sur MultiDomaine.MonDomainePrincipale.com. Je trouve que cela fait un peu brouillon, et parait il que ça peut même nuire au référencement voire même un blacklistage. Je n'ai aucun lien vers MultiDomaine.DomainePrincipale.com. Comment se fait il que les robot s'y rendent? Comment faire pour empecher les robots de passe par MultiDomaine.MonDomainePrincipale.com? Comment faire pour que les visiteurs ne viennent pas par le MultiDomaine.MonDomainePrincipale.com? nota: MultiDomaine.com est un CMS. Il y a déja un robots.txt qui contient ceci: User-agent: * Disallow: admin.php Disallow: /admin Disallow: /images Disallow: /themes Disallow: /logs Disallow: /cache Disallow: /sql Mais je ne sait pas si c'est ça qu'il faut changer, ou bien le .htaccess ou autre chose par avance, merci les webmasters
  8. Bonjour, Nous venons de mettre en ligne une Encyclopédie des Robots du web. Bien sûr, il existe d'autres listes de robots sur Internet, mais nous allons utiliser notre expérience de maintenance d'une liste de plus de 5000 annuaires pour développer et tenir à jour cette liste de robots, crawlers, spiders et autres UserAgents bizarroïdes. Notre but est de permettre au webmaster de voir en quelques secondes si les visites de ce robot sur son site lui sont bénéfiques ou non. Il peut alors éventuellement décider de l'exclure. Actuellement, pour chaque robot référencé, nous indiquons : - le nom du propriétaire du robot ou de l'auteur du logiciel - sa nationalité - le type de robot (pour savoir si ce robot crawle le site ou s'il se contente de lire une page) - une description du service concerné - le UserAgent transmis au serveurs web visités - la plage d'adresses depuis laquelle le robot travaille - une URL contenant des informations complémentaires - les possibilités de restriction d'accès supportées par ce robot : robots.txt ou META ou autres - le UserAgent à utiliser dans le robots.txt - la date de mise à jour Merci de nous donner vos avis, critiques et suggestions. Jean-Luc
  9. Bonjour, Je dois mettre en ligne la nouvelle version d'un site. Les nouvelles pages seront placées dans de nouveaux dossiers. Afin de ne pas ramener l'interaute sur une erreur 404 au cas ou il cliquerait sur un lien vers une ancienne page à partir d'un moteur de recherche, je pensais mettre dans chacune des ancinennes pages le script ci-dessous et placer un robots.txt interdisant la visite des anciens dossiers. Y-a-t-il d'autres solutions (je pense aux redirection 301 / 302 mais je n'en comprends pas bien le principe) ? Le but est à terme de faire disparaitre ces pages des moteurs pour pouvoir ensuite enlever ces dossiers du serveurs. <script Language="javascript"> if (parent.frames.length==0) parent.location.href="default.htm" </SCRIPT>
  10. Bonjour Bonjour Mon site propose des pages qui se ressemblent beaucoup. En fonction du type de l'internaute : pro ou amateur, l'affichage change legerement. Pour eviter un Duplicat content, je desire que les pages pour les amateurs soient indexees et celles des pro non. J'ai utilisé les balises Robots sur les pages pour pro. <meta name="Robots" content="no index,no follow" /> Mais cela n'est pas etre respecté par tous les moteurs... Je pense donc m'orienter vers un robots.txt pr resoudre mon petit probleme mais je bloque... Mes urls sont du type : www.bioman.com/pistolet/p-PARAMETREVARIABLE-team.php pour les pro www.bioman.com/pistolet/a-PARAMETREVARIABLE-team.php pour les amateurs C'est possible de faire cela ds un robots.txt ou faut il faire un htaccess ?
  11. Salut, Mon serveur est configuré avec un DocumentRoot /web dans la conf apache Que faut-il que je fasse pour exclure un répertoire avec le robots.txt Disallow: /web/repertoire ou Disallow: /repertoire Merci Stef
  12. thick

    robots.txt

    Malgré une interdiction dans mon robots.txt, je vois Pompos 1.3 qui se régale à parcourir mon site. J'ai ça dans mon robots.txt User-agent: Pompos Disallow: / Pourquoi ne veut-il pas obéir ?
  13. Comme il est intelligent de copier ce qui ce fait de mieux, j'ai regardé le robots.txt du Hub et je note qu'il y a "# Allow all" en début de fichier. Quelle en est l'utilité ?
  14. Bonjour là-dedans Je vous explique mon souci: j'ai un bot nommé ConveraCrawler qui vient indexer les pages d'un de mes sites. Jusque là, pas de quoi fouetter un chat. Sauf que cet animal n'en a strictement rien à faire de la bande passante De plus, je ne vois pas trop quel est son but. Pour info: * bande passante: j'ai un petit script PHP qui enregistre les requêtes dans ma base de données. Là par exemple, dans PhpMyadmin, j'ai un peu plus de 2 pages entières de Convera * but: sur le site de ConveraCrawler il est écrit: "The information gathered by ConveraCrawler will be indexed and made accessible via one or more publicly-accessible web sites in the near future." Donc il n'y a pour l'instant aucun site web où l'on puisse visualiser les résultats (et le bot indexe le web depuis plus d'un an: avril 2004). De plus, il est aussi dit sur le site de Convera-tout-court, ceci: "Convera is a leading provider of information infrastructure software products that enable enterprises and government agencies to access, organize and utilize unstructured information." donc il apparaît qu'ils bossent pour les gouvernements et les grandes entreprises (et je me contrefous autant de l'un que de l'autre). Je pense donc à rajouter ses IPs dans mon htaccess (et/ou de lui associer une belle petite ligne dans robots.txt). Mais je voudrais votre avis d'abord, car il n'est pas dans mes habitudes de bannir un robot comme çà. Donc mes questions: - quelqu'un connaît-il Convera et ConveraCrawler ? - quelqu'un l'a-t-il déjà banni ? - pensez-vous que je doive le bannir ? Merci d'avance PS: Au fait, sur leur site, ils s'excusent par avance des excès de bande passante monopolisée en arguant qu'ils sont pressés d'indexer tout le web. Çà me paraît un peu facile
  15. Bonjour, Savez vous comment réagissent les bots si l'on met dans le fichier robots.txt un truc du genre : Disallow: /fichier.php?var=mavar indexe-t-ils fichier.php à votre avis ? Dans l'autre sens si j'ai un truc du genre : Disallow: /fichier.php indexe-t-ils fichier.php?var=mavar à votre avis ? J'ai trouvé plusieurs posts à ce sujet mais sans réponse...
  16. Et oui premiere fois que cela m'arrive, google m'a ecrit, pas un message impersonnel, un vrai message signe, avec adresse IP et nom du correspondant. Je vous en devoile la teneur, il parraitrait qu'un de mes sites block son crowling. Vous avez deja recu ce message ?
  17. Valhala

    robots.txt

    Bonjour, j'ai fait de l'url_rewriting avec un forum phpbb et il y a des liens genre index.php?c=1 ou index.php?mark=forums, j'ai réduit au maximum ce genre de liens mais je peux pas tous les enlever. Je me suis demander si dans un fichier robots.txt on peut avoir Disallow: /index.php? sans que ça gène à index.php. J'ai cherché sur le net mais pas d'article sur ce problème spécifique. Merci d'avance <modérateur: message déplacé dans Langages du Net, il n'avait rien à faire dans le forum (x)HTML et CSS >
  18. Dans mes stats, j'ai un certain nombre de lignes qui font référence à jetxx.jeteye.com Ce nom donne une url : http://www.jeteye.com/ qui ne donne qu'un formulaire 'login/pass', ainsi qu'une page 'robots.txt' (ce qui est déjà une bonne chose). Apparemment, ce serait une version 'alpha'. Auriez vous des infos sur ce nouveau 'robot/site', décidé à crawler l'ensemble de mon site ?
  19. Bonjours a vous tous, J'ai un petit probleme enfin j'espere que oui , voila cela fait deja plus de 1 mois que j'ai ajouté mon site dans google et je ne suis toujours pas indexe , on m'a dit que j'avais un probleme de robots alors j'ai ajouté un fichier http://www.nublesa.cl/robots.txt et cela ne change en rien , SVP si il y a queleu'un qui pourrais m'aider a trouver la solution a mon probleme je vous serais tres reconnaissant . Merci Merci Sergio Madariaga
  20. Bonjour à tous, J'ai fait des recherches sur le hub, mais ne pense pas avoir trouvé de réponse correspondant exactement. Maintenant, mon cerveau malade me joue souvent des tours sur des évidences Voilà : d'un site www.domaine1.com, nous passons à la même version, mais sur un nouveau nom de domaine, www.domaine2.com. Le deuxième adresse devient l'adresse principale à référencer. Nous avons le temps de laisser les deux versions en ligne, mais je veux - rediriger les visites pour domaine1 vers domaine2 - transférer le référencement acquis du domaine1 vers le domaine2 J'ai pensé à la redirection 301, mais Dan ayant signalé que yahoo! n'était pas forcément friand de cette technique, nous pensions laisser les deux versions en ligne, référencer la nouvelle adresse, et faire en sorte que le domaine1 soit désindéxé au profit du 2. Maintenant, pas question de laisser deux versions miroirs ... alors quelle est d'après vous la meilleure démarche ? Suffirait-il de faire pointer les dns du 1 vers le 2, de mettre une simple redirection ... ? et de placer une redirection 301 sur le 2 (en bloquant l'indexation du domaine1 avec une version alternative du robots.txt ? Bref, mon message doit montrer que c'est bien confus dans ma tête Bref, je suis un peu perdu Merci d'avance pour votre réponse, et bravo pour la qualité du forum.
  21. Interessant, depuis son relooking, voila.fr n'a plus de robots.txt à sa racine. Les pages du guide sont donc indexées (16800 pages aujourd'hui) et devrait donner du PR. La soumission payant à Voila a donc d'avantage d'interet depuis ce changement. AMHA.
  22. je vais essayer d'être le plus clair possible, j'utilise un forum phpbb avec le portail ezportal et je suis sur ovh ... voilà pour l'intro j' ai installé ce mod pour l' url_rewriting Step 1. In /includes/page_header.php before Code: // // Generate logged in/logged out status // add this code (make sure there are no space breaks at line ends after you paste): Code: // // Short URL implementation // ob_start(); function replace_for_mod_rewrite(&$s) { $urlin = array( "'(?<!/)viewforum.php\?f=([0-9]*)&(?:amp;)topicdays=([0-9]*)&(?:amp;)start=([0-9]*)'", "'(?<!/)viewforum.php\?f=([0-9]*)&(?:amp;)mark=topics'", "'(?<!/)viewforum.php\?f=([0-9]*)'", "'(?<!/)viewtopic.php\?t=([0-9]*)&(?:amp;)view=previous'", "'(?<!/)viewtopic.php\?t=([0-9]*)&(?:amp;)view=next'", "'(?<!/)viewtopic.php\?t=([0-9]*)&(?:amp;)postdays=([0-9]*)&(?:amp;)postorder=([a-zA-Z]*)&(?:amp;)start=([0-9]*)'", "'(?<!/)viewtopic.php\?t=([0-9]*)&(?:amp;)start=([0-9]*)&(?:amp;)postdays=([0-9]*)&(?:amp;)postorder=([a-zA-Z]*)&(?:amp;)highlight=([a-zA-Z0-9]*)'", "'(?<!/)viewtopic.php\?t=([0-9]*)&(?:amp;)start=([0-9]*)'", "'(?<!/)viewtopic.php\?t=([0-9]*)'", "'(?<!/)viewtopic.php&(?:amp;)p=([0-9]*)'", "'(?<!/)viewtopic.php\?p=([0-9]*)'", ); $urlout = array( "viewforum\\1-\\2-\\3.html", "forum\\1.html", "forum\\1.html", "ptopic\\1.html", "ntopic\\1.html", "ftopic\\1-\\2-\\3-\\4.html", "ftopic\\1.html", "ftopic\\1-\\2.html", "ftopic\\1.html", "sutra\\1.html", "sutra\\1.html", ); $s = preg_replace($urlin, $urlout, $s); return $s; } Step 2. In /includes/page_tail.php after Code: $db->sql_close(); add this: Code: $contents = ob_get_contents(); ob_end_clean(); echo replace_for_mod_rewrite($contents); global $dbg_starttime; in the same file after Code: ob_end_clean(); add this: Code: echo replace_for_mod_rewrite($contents); global $dbg_starttime; pour mon htaccess j' ai ceci DirectoryIndex index.html index.htm portal.php index.php RewriteEngine On RewriteRule ^forums.php /index.php RewriteRule ^forum([0-9]*)\.html /viewforum.php?f=$1&mark=topic RewriteRule ^viewforum([0-9]*)-([0-9]*)-([0-9]*)\.html /viewforum.php?f=$1&topicdays=$2&start=$3 RewriteRule ^forum([0-9]*)\.html /viewforum.php?f=$1 RewriteRule ^ptopic([0-9]*)\.html /viewtopic.php?t=$1&view=previous RewriteRule ^ntopic([0-9]*)\.html /viewtopic.php?t=$1&view=next RewriteRule ^ftopic([0-9]*)-([0-9]*)-([a-zA-Z]*)-([0-9]*)\.html /viewtopic.php?t=$1&postdays=$2&postorder=$3&start=$4 RewriteRule ^ftopic([0-9]*)-([0-9]*)\.html /viewtopic.php?t=$1&start=$2 RewriteRule ^ftopic([0-9]*)\.html /viewtopic.php?t=$1 RewriteRule ^ftopic([0-9]*)\.html /viewtopic.php?t=$1&start=$2&postdays=$3&postorder=$4&highlight=$5 RewriteRule ^sutra([0-9]*)\.html /viewtopic.php?p=$1 j' ai commenté les sid de cette manière { global $SID; // if ( !empty($SID) && !preg_match('#sid=#', $url) ) // { // $url .= ( ( strpos($url, '?') != false ) ? ( ( $non_html_amp ) ? '&' : '&' ) : '?' ) . $SID; // } return $url; } quand à mon robots.txt il est le suivant User-agent: * Disallow: /images/ Disallow: /admin/ Disallow: /templates/ Disallow: /login.php Disallow: /modcp.php Disallow: /posting.php Disallow: /profile.php Disallow: /groupcp.php Disallow: /privmsg.php Disallow: /search.php Disallow: /redir.php Disallow: /memberlist.php Disallow: /viewonline.php Disallow: /viewmessage Disallow: /viewforum.php Disallow: /viewtopic.php à chaque fois google n'indexe que les éléments qui se trouvent sur " portal.php" j' ai remarque qu'avec ce htaccess, j'ai les " sutra et ftopic" qui apparaissent, et si je vire le htaccess j' ai les "sutra et forum" qui apparaissent, donc je voulais savoir si en modifiant ce htaccess je pouvais avoir de visible " sutra, ftopic, forum " et surtout besoin de vos conseils en règle générale , car débuter c'est jamais évident merci à tous pour vos conseils
  23. Bonjour, Je cherche une réponse concernant le choix de réécriture / redirection à faire dans cas d'un site dont tous (6) les noms de domaines ont été "sauvagement" soumis à Google (entre autres). Disons que l'adresse principale est www.domaine-principal.com, et que les 5 autres sont : www.domaine-2.fr, www.domaine-3.com, www.domaine-4.com, www.domaine-5.com et www.domaine-6.com. Tous les noms de domaine du site pointent vers l'adresse principale, pour un hébergement unique. Mais il est nécessaire de faire "le ménage", car google présente le site en faisant une rotation des urls avec des classements anarchiques, chose que je n'ai jamais vue encore. L'idée est que seule l'url principale apparaisse au final dans les résultats, et de ne pas perdre le peu de référencement aquis. Quelle serait, d'après-vous, la meilleure méthode par .htaccess : redirection permanente ? Réécriture ? Dan, tu m'as parlé de gérer tout cela par le .htaccess et des fichiers robots.txt, c'est bien cela ? Merci et à bientôt,
  24. Le moteur de recherche Sootle a été remis en ligne le 25 décembre dernier. Lancé en Juillet, ce nouveau moteur avait été suspendu mi Novembre, le temps d'ameliorer quelques points dans l'algorithme. Sootle a été remis en ligne avec une base de données "vierge" et il commence maintenant à parcourir la toile. Il est pour l'instant en version Alpha. Une fois qu'une base un peu plus conséquente aura été établie, le moteur passera en version béta, puis, aprés quelques ajustements, en version définitive. A noter que ce moteur a été lancé initialement par des universitaires (comme Google à ses débuts). Le robot s'appel "Sootlebot". D'aprés les infos qui trainent sur le site, ce robot respecte les "meta-tags" et le fichier "robots.txt". Il aspire, sur un même site, un maximum de 30 pages à la minute (ce nombre va sans doute être réduit car certains webmaster protestent contre la consomation de bande passante que cela induit). Tizel http://www.sootle.net
  25. Juste un petit coup de gueule sur un problème qui m'agace particulièrement avec le "moteur numéro un". Manifestement, Google n'est pas capable d'indexer correctement les fichiers Flash. Il n'extrait que les liens pour les comptabiliser dans son calcul de Pagerank. Ce choix de n'indexer que partiellement les fichiers swf est déjà assez étonnant en soi, vu que les technos permettant d'extraire le texte des fichiers Flash sont libres de droit. Fast utilise cette méthode d'indexation par exemple. Je peux comprendre que Google ait fait ce choix par souci d'économie de ressources, mais dans ce cas pourquoi s'obstine-t-il à présenter des fichiers swf dans les résultats de recherche ? Il pourrait très bien n'utiliser les liens contenus dans les flash que pour son calcul de PR, sans chercher à les ajouter à son index. Je ne comprends pas la raison de ce choix, sauf à penser que Google cherche ainsi à gonfler artificiellement le volume de sa base... Mais le problème principal est ailleurs... Je constate que Google ne respecte pas le protocole d'exclusion par robots.txt dans le cas des fichiers .swf. Il nous interdit donc de lui interdire des fichiers qu'il n'est pas capable d'indexer correctement... Je trouve ça assez choquant. A quoi servent les standards tels que celui du robots.txt si le moteur numéro un se permet de ne pas les appliquer ? Actuellement, la seule méthode fiable pour empêcher Google d'indexer les swf est donc de barrer l'accès à Googlebot via le .htaccess, ce qui n'est quand même pas la méthode la plus simple, ni la plus conforme aux standards
×
×
  • Créer...