Aller au contenu

Chercher dans la communauté

Affichage du résultat pour les tags 'robots.txt'.

  • Rechercher par étiquette

    Saisir les étiquettes en les séparant par une virgule.
  • Recherche par auteur

Type du contenu


Forums

  • Accueil
    • Les nouveaux membres se présentent
    • Revues de presse
    • Le salon de Webmaster Hub
    • La tribune de Webmaster Hub
  • Publications et Redirections
    • Référencement et Publicité
    • Droit, Finances et Administration
    • Les techniques de l'Internet
    • Noms de domaines et hébergement
    • La tribune du Hub
  • Création et exploitation de Sites Internet
    • Les langages du Net
    • Les fondations d'un site
    • Accessibilité et Ergonomie Web
    • E-commerce
    • Administration & Droit
    • Systèmes de publication
  • Promotion de Sites Internet
    • Techniques de Référencement
    • Techniques de Promotion
  • Informatique & Internet
    • PC-Gyver
    • Les Navigateurs
  • Les services de Webmaster Hub
    • Infogérance serveurs dédiés
    • Partenariat et échanges de liens
    • Offres et demandes de prestations de service

Rechercher dans...

Chercher ce qui...


Date de création

  • Début

    End


Dernière mise à jour

  • Début

    End


Filtrer par...

Inscrit

  • Début

    End


Groupe


Mon Site


Skype


Localisation


Société

  1. bonjour, je suis nouveau ici (en tant qu'inscrit du moins car ça fait longtemps que je vous lis). on peut dire que je suis aussi "nouveau" sur le web, comme beaucoup j'ai suivi le parcours suivant: blog > hébergement FAI > vrai hébergement (OVH) + NDD. donc me voilà avec mon hébergement (mutualisé) et mon NDD tout neuf (90PLAN). mais j'aimerais vraiment faire les choses proprement, et les unes après les autres, sans me précipiter surtout. donc je me tourne vers vous pour ma première question; assez "initié" en termes de référencement, je sais que le contenu dupliqué (duplicate content) est à éviter. après avoir mis un fichier robots.txt, il faut donc maintenant que je m'occupe du fichier .htaccess. et là, c'est quand même le grand flou, on trouve toutes sortes de syntaxes différentes. voici ce que je voudrais faire: 1. rediriger -http://monsite.fr vers -http://www.monsite.fr/, mais sachant que j'aimerais me réserver la possibilité d'utiliser des sous-domaines (-http://sousdomaine.monsite.fr/) 2. rediriger -http://www.monsite.fr/index.html vers -http://www.monsite.fr/ voilà ce que j'ai trouvé, comme code, mais je m'étonne des différents types de syntaxe que l'on peut trouver ici et là, et je ne sais pas ce que signifient [NC] ou encore [QSA], et pourquoi dans un cas on utilise l'un ou l'autre? le [NC] à la fin de la 2ème ligne est-il indispensable? RewriteEngine On RewriteCond %{HTTP_HOST} ^monsite\.fr [NC] RewriteRule ^(.*)$ http://www.monsite.fr/$1 [QSA,R=301,L] RewriteRule ^index.html$ http://www.monsite.fr/ [NC,L,R=301] voilà, ça fait long comme premier message hein... si quelqu'un pouvait me corriger ça?
  2. Bonjour une question me reste sans réponse (ou un floue) la commande User-Agent: * Disallow: du robots.txt permet a tous les robots de récolter des informations ? ou faut-il préciser des commandes supplémentaires ? Pour justement autorisé ou appeler ces robots à indexer mes pages ? Cordialement TrocWeb
  3. Bonjour, Et un de plus Je ne suis certainement pas le seul à me perdre dans le labyrinthe du réferencement mais je ne sais plus comment faire j'ai suivi les conseil des meta et des balises les base et analysé mon site pour voir si tout était ok... mais j'ai l'impression que ça décoince pas j'ai attendu et je suis très patient je trouve bizarre ce message ? Le robot Googlebot est parvenu à accéder pour la dernière fois à votre page d'accueil le 16 août 2007 le 16 août 2007 ? il passe pas souvent ???? j'avais mis un robots.txt , je l'ai enlevé aujourd'hui pour voir si ça change qlq chose ? Merci pour vos conseils j'ai peut être grillé des étapes ?
  4. Bonjour à tous, Je suis l'administrateur du site www.dreyeckland.com, un site régional qui présente le sud de l'Alsace. Au quotidien on fait des reportages sur la région pour vous donner envie de la visiter ;-) Je travaille sur Plone, réalisé en Python avec Zope et je travaille à la mise en place d'un site Oscommerce mais je galère comme tout (le php et python c'est pas la même chose et passer du simple au compliqué est toujours plus difficile ) Pour l'heure mon site qui vient de passer sa première année ne draîne qu'un peu plus de 200 Vu par jour, mais j'espère dépasser rapidement ce chiffre avec vos conseils et ceux de WRI que je fréquente régulièrement. Je dois avouer que jusqu'en mai de cette année je n'avais pas fait attention au fait que les moteurs indexaient plusieurs fois la même page sous des url différentes. J'ai mis de l'ordre avec un robots.txt au début du mois de juin et j'attends maintenant que Google et les autres moteurs me pardonnent ma faute de débutant Je suis preneur de tous commentaires ou suggestions au sujet de mon site Voilà, bonne journée à tous !
  5. Bonjour à tous, Je viens de mettre en ligne ma boutique nature, déco et bien-être après plusieurs mois de dur labeur. J'ai lu une multitude de livres, articles, posts et dossiers sur le référencement, et je pense qu'aujourd'hui les pages profitent d'une bonne optimisation. Mais, car il y a un "mais", votre avis m'interesse car j'ai peut etre pu passer à coté de quelque chose, ou peut etre fais des erreurs. Etant donné qu'il y a quelques "pointures" sur ce forum (si si à force de lire ce forum je vous ais repéré ! ), je vous soumets quelques questions. Comme beaucoup, j'utilise l'url rewriting pour avoir de belles url explicites. Afin d'eviter le duplicated content j'utilise un fichier robots.txt de la forme : Sitemap: http://www.tuxy.fr/sitemap.xml User-agent: * Disallow: /produit.php Disallow: /contact.php Disallow: /contact_p.php Disallow: /panier.php En effet mes pages dynamiques étant de la forme "produit.php?ref=pe0001" je ne souhaite pas que google index ces pages de cette forme, mais bien mes pages réécrites. Idem pour les pages de contact ainsi que les pages panier.php puisque google, lors du crawl, se balade sur les liens "ajouter au panier". Est-ce que je fais une erreur en faisant cela ? Si vous pensez qu'avec un tel fichier robots.txt je me tire une balle dans le pied, merci de me le signaler Cette nuit, google a entamé le crawl complet du site, il est entrain de finir tranquillement. J'avais lu quelque part qu'une campagne adwords pouvait accélérer les choses. Bizarrement, 1 heure après le lancement de ma campagne adwords, google à démarré son crawl. Coincidence ou y-a-t-il un réel lien ? Le nom de domaine à été acheté il y a plusieurs mois, et dans le but d'éviter la sandbox et de faire connaitre mon domaine à google, j'avais placé une page temporaire annonçant l'ouverture prochaine de la boutique. Pensez-vous que la sandbox peut être évitée de la sorte, ou dois-je continuer à transpirer en me demandant si je vais y avoir droit ? Comme ennoncé plus haut, google est entrain d'avaler les pages de la boutique. D'après vous, d'ici combien de temps (en moyenne) aurais-je le plaisir de voir mes pages apparaitre dans les résultats de google ? Je peux profiter de quelques backlinks intéressants à partir de sites à fort PR (pas de ferme de liens ou autre, de vrais sites appartenant à des amis qui me proposent un lien comme coup de pouce). Pensez-vous que je dois patienter avant de profiter de ces backlinks ? (toujours par peur de la sandbox) D'avance merci de vos réponses, si mes questions ont déjà trouvé réponses ailleurs dans d'autres posts où j'ai pu passer à coté, merci de bien vouloir me communiquer les liens de ces posts. Bonne journée à tous, profitez bien du soleil, on ne sait pas quand il reviendra ...
  6. Salut à tous je suis désolé pour mon premier post si je ne poste pas au bon endroit (veuillez me déplacer si il le faut) ... j'ai des questions concernant le référencement de mon site : http://www.yakayale.net/ ... J'ai mis en ligne une seconde version de mon site en html (la précédente était en flash) et là j'ai fait des efforts de référencement mais je m'interroge sur le passage des googlebots. Leur dernière visite date du 30 avril 2007, ce qui me semble assez loin comme date non ? j'ai mis en place des trucs plus propres selon moi : - Titre unique pour chaque page du site - Meta informations à jour (enfin je pense) - Fichier robots.txt : http://www.yakayale.net/robots.txt - SiteMap du site (bon je l'ai généré par rapport à un site qui fait ça ) : http://www.yakayale.net/sitemap.xml - Inscription sur dmoz (est ce vraiment utile ? ) - Demande à google de passer voir mon site (via leur truc de webmaster) Enfin voila ... J'aurais donc aimé savoir si je manque seulement de patience ou si c'est anormal qu'il ne mette pas à jour la description qui remonte sur google en cas de recherche ... , si mon site est blacklisté , si il y a un souci ...bref si je dois mourir maintenant ou plus tard. Je vous remercie donc tous de votre aide par avance ... ce site est vraiment bien foutu et bien riche A bientôt ps : si vous voulez vous connecter : login : guest / pass : guest
  7. Bonsoir, j'aimerais savoir si le fait d'avoir (chez google) un plan sitemaps et une analyse de mon site par le robots.txt URL apporteras un plus significatif pour un meilleur réferencement de celui-ci ? et pourquoi? je vous remercie d'avance de vos conseils. Cordialement. Franck
  8. Bonjour tout le monde. J'ai une page qui est à la racine de 2 sous domaines différent et qui contiens la même chose, pour éviter le duplicate je voudrais interdire l'indexation de cette page pour l'un des 2 sous domaines. Les 2 sous domaine partage le même robots.txt alors je me demandais est-ce que l'on peut mettre un lien absolu dans un robots.txt ? User-agent: * Disallow: http://en.mondomaine.net/page.php Merci
  9. Salut à tous, Le sitemap de mon site est signalé par Google comme comportant une erreur. Lorsque je clique sur "ERREURS", ce message s'affiche: Voici le dernier sitemap uploadé et annoncé à Google (http://www.e-marketer.be/sitemap.xml) J'ai supprimé mon sitemap de Google sitemap, l'ai regénéré et il m'affiche de nouveau cette erreur. Il n'y a pas d'erreur dans mon fichier robot (http://www.e-marketer.be/robots.txt) qui provient de mon CMS, par ailleurs. Quelqu'un a une idée du problème ? Merci de toute aide, zedo24
  10. le fichier robots.txt n'a pas du être mis à jour assez rapidement : http://www.google.com/search?q=inurl:www.g...fr&filter=0 http://search.yahoo.com/search?p=inurl%3Aw...-501&dups=1
  11. Bonjour à tous, voila, j'ai crée mon site de présentation de jeux flash que j'ai crée. Pour cela, j'utilise une redirection 404 par .htaccess. il ne contient que 2 lignes : AddType x-mapp-php5 .php ErrorDocument 404 /redir.php la première sert à renommer mes fichiers php en php5 (je suis chez 1&1) pour qu'il me passe sur la bonne version de php et la seconde effectue ma redirection vers une page redir.php qui contient uniquement <?php session_start(); ?> <?php $url = $_SERVER['REQUEST_URI']; $tab_url = explode ("/",$url); $param_url1 = $tab_url[1]; $param_url2 = $tab_url[2]; $param_url3 = $tab_url[3]; $param_url4 = $tab_url[4]; include_once("index.php"); ?> Ce script attrape donc les differents paramètres de l'url et les stocke dans un tableau puis j' include l'index. Cet index affiche la bonne page en fonction des variable $tab_url[1],$tab_url[2],.... avec des switch{}. Le script fonctionne parfaitement à l'utilisation mais pourtant google ne me référence pas mes pages. Google Sitemap m'indique que l'url de base, http://www.pixtiz.com/ est vue comme 404 (Not found). Quand je fais un test de header avec l'outil WRI (http://www.webrankinfo.com/outils/header.php), http://www.pixtiz.com/ me retourne une header OK de type 200 mais si j'essaie avec une url à traduire du genre http://www.pixtiz.com/fr/presentation, le test me donne un header 404. Voila, je ne comprend pas trop ce qui se passe, et j'ai lu beaucoup de posts différents, certains parlent d'un fichier robots.txt a la racine du site, d'autres parlent de faire : header("HTTP/1.0 200 OK"); header('Location: /article.php?id='.$id); Si vous avez une idée ou que vous avez déjà rencontré ce problème, donnez-moi un coup de main s'il vous plait. Merci d'avance ! fabien
  12. Je n'ai pas mis de fichier robots.txt à la racine de mon site tout simplement parceque ce dernier n'a pas besoin d'aménagements spéciaux. Pensez-vous que ça puisse me nuire ?
  13. Bonjour, Je cherche à faire désindexer par google un certain nombre de pages d'un site qui sont actuellement présentes dans l'index du moteur. Ces pages ont un format type www.ndd.fr/index.php?module=recherche&str_src=xyz. J'ai ajouté au fichier robots.txt la ligne "Disallow: /index.php?" Pensez-vous que cette ligne du robots.txt soit suffisante pour que google désindexe les pages déjà crawlées ? Le cas échéant, pensez-vous qu'il soit possible d'obtenir le résultat escompté en forçant l'en-tête des pages concernées avec la commande suivante ? header("HTTP/1.1 404 Not Found"); header("Status: 404 File not found"); D'avance merci de votre point de vue. Sylvain
  14. Bonjour, Jai quelques sites qui ont complètement changé de structure et plusieurs milliers de pages nexistent plus. Comment puis-je récupérer la liste de ces url ? Je voudrais utiliser le service de désindexation de google, mais si je dois les déclarer une par une en me servant des résultats de la commande site:, ça fait long - Jaimerais récupérer la liste et linsérer dans le fichiers robots.txt puis déclarer ce fichier dans lespace de désindexation. Mais je ne vois pas comment récupérer la liste des url... Merci davance
  15. Bonjour, j'ai été voir sur msn le positionnement pour un de mes sites et j'ai pu constater que je n'ai plus de titre et plus de description. Ceci est vrai pour toutes les 8 pages du site voir : http://search.msn.com/results.aspx?q=www.f...g&Form=MSNH Comment cela est-il possible ? Il n'y a pas de cache de la page comme à l'habitude. Notez que les meta sont en place et que mon fichier robots.txt avait ce contenu : User-agent: Googlebot-Image Disallow: / Mais ce problème semble être apparu en même temps que j'ai ajouté ce fichier robots.txt... Depuis je l'ai supprimé... Quelqu'un à une idée de la source du problème? Merci
  16. Désolé si ma question est triviale, je ne suis pas expert en robots... Habituellement, si je veux masquer un répertoire aux robots, je rajoute simplement : User-agent: * Disallow: /monrepertoirecache/ Pour un répertoire existant physiquement sur le serveur, no problem... Maintenant, dans le cas d'utilisation d'un CMS qui permet l'utilisation de la ré-écriture d'URL, si j'ai un truc du genre http://www.monsite.com/monrepertoirecache/ Comment le robot va t-il interpréter ce répertoire qui en fait n'existe que grâce au .htaccess ? Par quel moyen puis-je protéger cette partie du site ? Merci !
  17. Bonjour à tous, A mon retour de vacances, voila que je trouve un courrier d'un cabinet d'avocats qui me demande de retirer des propos dénigrants voir diffamant d'un forum. Je viens donc de le faire. Rien d'excessif ma fois mais j'enlève les avis. Pour cela j'ai retiré les posts et j'ai ajouté un NOINDEX dans un fichier robots.txt sur les dites-pages. Quel est le délai d'intervention de GOOGLE et des autres moteurs la-dessus, peut-on aller plus vite ? Dans la lettre, il me demande de repondre sous huitaine à leur courrier, ce que je n'ai pas fait bien entendu étant en congé. Le cabinet represente une client dont je n'ai pas les coordonnées, donc je ne sais pas même pas si c'est eux ou la cliente qui est à l'origine de ce courrier. Ayant obtéré, dois-je vraiment leur répondre, et ne vont-ils pas essayer de me demander un paiement pour leur courrier/action ? Il me semble avoir lu sur ce forum, un sujet similaire. Ne fouillent-ils pas les forums a la recherche de propos diffamant en espérant un réglement à l'amiable à chaque fois ? Que dois-je faire selon vous ?
  18. GoogleBot Keep Out Je suis assez surpris par la méthode décrite par Matt Cutts dans ce billet pour interdire à GoogleBot d'indéxer une page. Par contre, je trouve le billet intéressant car il nous explique comment utiliser les wilcards dans un robots.txt pour contrôler l'indexation de GoogleBot. J'étais persuadé que les wilcards n'étaient pas pris en compte dans un robots.txt User-agent: Googlebot Disallow: *googlebot=nocrawl$
  19. Urban

    MSIECrawler

    Ceci n'est pas exactement un problème de référencement, mais de crawler. Depuis quelques jours, j'ai un internaute qui crawl certains sites chaque jour dans leur totalité avec l'user agent : Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Wanadoo 6.7; .NET CLR 1.1.4322; MSIECrawler) Je pense qu'il a choisi de rendre dispo offline les sites en question. Es-ce un fonctionement normal ? Chaque fois qu'il se connecte il crawl la totalité des sites ? Avez vous eu ce genre de problème ? Qu'avez-vous fait ? Rien ? Rewritecond sur l'UA ? robots.txt (j'ai cru comprendre que ce crawler respectait robots.txt) ?
  20. Bonjour, J'ai mis un forum en ligne il y a peu de temps. J'ai ensuite changé d'avis concernant la forme des url des pages, j'ai donc utilisé l'outil de supression d'url de Google pour supprimer mes pages de l'index et repartir à 0 (c'était le tout debut, seulement une 40aine de pages d'indexées). Au lieu de m'embeter à copier/coller l'url de toutes les pages dans mon robots.txt, j'ai mis directement la racine du site (un sous domaine). 24 heures après, toutes les pages de ce forum étaient suprimées de l'index, c'est exactement ce que je voulais. Je me pose la question maintenant du delais d'indexation des nouvelles pages de ce forum. En gros, Google retient-il que je lui ai interdit l'accès à mon site (et il n'y reviens plus) ? Ou, constate-t-il cette interdication a chaque fois qu'il tente de crawler une page de mon site ? Loïc.
  21. Bonjour, Toutes mes pages sont autorisées par le fichier robots.txt. Par curiosité, que signifie état = 200 ? Merci
  22. Bonjour, J'ai mis il y a trois semaines un plan sitemap à la racine de mon site, Dans les statistiques, j'ai : "Données inaccessible pour le moment...". Et dans les erreurs/url inaccessibles, j'ai : (à quelque chose près) "...pages trouvées par le plan sitemap.../réseau inaccessible...". J'ai aussi "impossible d'atteindre robots.txt", comme je n'ai aucune page à exclure, je n'ai pas de fichier robots.txt. Je précise que le site est en Flash. Ca veut dire quoi tout ça....? Merci d'avance.
  23. Mon site est indexé sur google depuis plusieurs mois sans qu'il puisse sortir sur ses mots clés et, pire, sur ceux figurant sur son nom de domaine. Le site : www.hotel-balladins-nimes.com J'ai beau consulter le forum, vérifier le contenu des pages, le robots.txt, rien n'y fait, je ne vois pas où je pêche. Quelqu'un aurait-il une idée ? Merci d'avance à tous ceux qui pourraient m'aider.
  24. Nouvel outil chez google. Testez votre fichier robots.txt avant de le soumettre. Dans les statistiques sitemap, onglet robots.txt https://www.google.com/webmasters/sitemaps/siteoverview
  25. Bonjour, Je voudrais empecher l'indexation d'un sous repertoire yyyy se trouvant dans xxxx tout en autorisant l'indexation de xxxx. Si je mets ces 2 lignes dans le robots.txt (se trouvant à la racine du site), est-ce que c'est bon ? User-agent: * Disallow: /xxxx/yyyy/ Merci d'avance.
×
×
  • Créer...