Aller au contenu

Disallow


Melkior

Sujets conseillés

Bonjour,

Il existe des outils sympathiques pour regarder les sites comme les moteurs de recherche.

Et j'ai été surpris d'un résultat.

En effet l'outil refuse d'analyser l'index du site et me renvoit vers le fichier robots.txt

Un autre outil lui me donne :

  • Langue retenue : Français (par défault)
    Attention, aucune langue n'est définie par cette page.
    • Entête HTTP "Content-Langage" : aucune information
    • Métadonnées HTML (http-equiv="Content-Language") : aucune information
    • Métadonnées HTML (name="language") : aucune information
    • Attribut "lang" ou "xml:lang" sur balise HTML, BODY ou META : aucune information

    [*]Codage de caractères retenu : latin1 Attention, cette page ne définit aucun codage de caractères.

    • Codage de caractères (HTTP) : aucun
    • Codage de caractères (meta.http-equiv) : aucun

    [*]Balise title :

    [*]Balise meta, description :

    [*]Balise meta, keywords :

    [*]Cette page ne contient pas de frames.

    [*]Cette page ne contient pas d'iframes.

On peut supposer que ce site est donc vide.

Mais pourtant, dans le code source on les voit les méta bien remplis.

On sait tous que : Disallow: /

Veut dire que l'on interdit tout accès au site pour les adresses du site commence par un /

Mais le problème c'est que je ne trouve pas cette ligne dans robots.txt de ce site

J'ai :

User-agent: *

Disallow: /gcenter/

Disallow: /index.php?main_page=ilike

Disallow: /producttags/

Disallow: /dresses/

Disallow: /includes/

Disallow: /robes/

et de plus lorsqu'on fait : site:monsite.com dans gg

On a des résultats

D'ou peut provenir ce blocage ?

Merci

Lien vers le commentaire
Partager sur d’autres sites

Salut,

Le mieux c'est de nous donner l'outil qui refuse de faire son (supposé) travail.

Au niveau des blocages, on peut également bloquer l'accès au site (de manière beaucoup plus restrictive que le robots.txt) via un .htaccess. Peut-être que l'outil est interdit d'accès par ce biais.

Lien vers le commentaire
Partager sur d’autres sites

Salut,

Le mieux c'est de nous donner l'outil qui refuse de faire son (supposé) travail.

En faite c'est pas l'outil qui fait mal son travail.

C'est le webmaster qui a bloqué un site et je m'en suis rendu compte grâce aux outils d'analyses.

J'aimerais comprendre quelle technique il utilise pour arriver à cela.

Lien vers le commentaire
Partager sur d’autres sites

Ou encore plus simplement avec un "Forbidden" renvoyé pour certains User_Agent...

Par exemple :

RewriteCond  %{HTTP_USER_AGENT}  snap.com [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Snapbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Gigabot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Xenu\ Link\ Sleuth [NC,OR]
RewriteCond %{HTTP_USER_AGENT} larbin [NC,OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]
RewriteCond %{HTTP_USER_AGENT} PhpDig [NC,OR]
RewriteCond %{HTTP_USER_AGENT} WebCopier [NC,OR]
RewriteCond %{HTTP_USER_AGENT} LWP::Simple [NC,OR]
RewriteCond %{HTTP_USER_AGENT} lwp-trivial [NC,OR]
RewriteCond %{HTTP_REFERER} nique.la.racaille.free.fr [NC,OR]
RewriteCond %{X-moz} prefetch
RewriteRule .* - [F]

Lien vers le commentaire
Partager sur d’autres sites

C'est normal que tu ne trouves rien pour "rewrite" avec un CTRL+F car les instructions données dans les .htaccess ne sont pas visibles pour les visiteurs. On peut éventuellement voir le résultat donné en analysant le header renvoyé mais c'est tout.


RewriteCond %{HTTP_REFERER} nique.la.racaille.free.fr [NC,OR]

Ahahah c'est quoi ça? Tu as tiré d'où ton extrait Dan?!

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...