Aller au contenu

Slurp : %E2%8C%A9 dans l'url


suede

Sujets conseillés

Dans certaines de mes urls, slurp me rajoute %E2%8C%A9 . Cela provoque bien sur des erreurs 404.

Est-ce que quelqu'un en connait l'origine (a priori, je ne suis pas le seul à qui cela arrive et seul slurp a ce probleme).

François

Lien vers le commentaire
Partager sur d’autres sites

Salut Suede,

C'est d'autant plus surprenant que Yahoo! n'est pas en mesure de fournir le cache de ces pages (comprenant cette chaîne dans l'URL)

Une recherche sur yahoo: http://fr.search.yahoo.com/search?ei=UTF-8...25A9&meta=vl%3D

donne pour le cache de toutes les pages l'erreur suivante:

Désolé, mais nous n'avons pas pu traiter votre demande en raison de la mémoire cache de -http://www.ilocartes.com/?cat=EXCUSES%25E2%258C%25A9=. Veuillez cliquer ici pour vérifier la page actuelle.
avec seulement l'URL qui diffère.

Dan

Lien vers le commentaire
Partager sur d’autres sites

Bonjour,

Ce que fait Yahoo, c'est vérifier astucieusement le traitement des erreurs 404 sur le site. Il demande une adresse qui n'existe pas et espère recevoir une erreur 404. S'il reçoit un code 302 ou 200, il sait que, pour ce site, certaines redirections 302 ou certains codes 200 sont, en fait, des pages inexistantes et il pourra en tenir compte.

Voir Yahoo! Search : your crawler is asking for strange URLs that have never existed on my site.

Jean-Luc

Lien vers le commentaire
Partager sur d’autres sites

Bonjour,

Ce que fait Yahoo, c'est vérifier astucieusement le traitement des erreurs 404 sur le site. Il demande une adresse qui n'existe pas et espère recevoir une erreur 404. S'il reçoit un code 302 ou 200, il sait que, pour ce site, certaines redirections 302 ou certains codes 200 sont, en fait, des pages inexistantes et il pourra en tenir compte.

Voir Yahoo! Search : your crawler is asking for strange URLs that have never existed on my site.

Jean-Luc

<{POST_SNAPBACK}>

Ca en fait quand même un paquet de vérification... 1 par jour suffirait peut-etre...

Lien vers le commentaire
Partager sur d’autres sites

Ca en fait quand même un paquet de vérification... 1 par jour suffirait peut-etre...

C'est bizarre. Chez moi, sur un site dont il visite 13000 pages, il fait le test sur une ou deux adresses chaque mois.

Jean-Luc

Lien vers le commentaire
Partager sur d’autres sites

Après réflexion, mon explication n'est pas la bonne, car, lors de ses vérifications du fonctionnement des erreurs 404, Yahoo utilise des URL comme /SlurpConfirm404/niigata.htm.

Peux-tu donner l'une ou l'autre URL complète avec ces %E2%8C%A9 ?

Jean-Luc

Lien vers le commentaire
Partager sur d’autres sites

Il n'y en a aucune dans le cache yahoo! sur le site photos-suede.com

http://fr.search.yahoo.com/search?p=inurl%...=wrt&meta=vl%3D

Mais j'ai donné le lien dans ma première réponse, et ce sont des sites qui ne traitent pas correctement les arguments passés en URL.

Je pense que comme Suede traite correctement ces requêtes en renvoyant une entête 404, il n'y a pas de problème potentiel pour son site.

Lien vers le commentaire
Partager sur d’autres sites

 photo-628/main_back-photo10%E2%8C%A9=en/     
photo-430/main_back-photo10%E2%8C%A9=sv/    
photo-312/main_back-photo10%E2%8C%A9=fr/    
photo-258/main_back-photo10%E2%8C%A9=fr/    
id_theme-16/back_theme-8%E2%8C%A9=en/    
id_theme-41/back_theme-40%E2%8C%A9=fr/    
photo-787/main_back-photo7b%E2%8C%A9=fr/    
photo-784/main_back-photo7%E2%8C%A9=sv/    
loupe-653%E2%8C%A9=en/    
photo-797/main_back-photo5%E2%8C%A9=en/    
photo-767/main_back-photo7%E2%8C%A9=en/    
photo-803/main_back-photo7b%E2%8C%A9=sv/    
photo-56/main_back-photo4%E2%8C%A9=fr/    
photo-793/main_back-photo5%E2%8C%A9=sv/    
photo-336/main_back-photo2%E2%8C%A9=fr/    
photo-802/main_back-photo7%E2%8C%A9=en/    
photo-714/main_back-photo10%E2%8C%A9=fr/    
photo-352/main_back-photo9%E2%8C%A9=fr/    
photo-448/main_back-photo10%E2%8C%A9=sv/    
photo-84/main_back-photo3b%E2%8C%A9=fr/    
photo-524/main_back-photo4%E2%8C%A9=en/    
photo-780/main_back-photo7%E2%8C%A9=sv/    
id_theme-20/back_theme-18%E2%8C%A9=fr/    
photo-693/main_back-photo10%E2%8C%A9=en/    
photo-77/main_back-photo9%E2%8C%A9=fr/    
liste-photo-5%E2%8C%A9=sv/    
all-photo-5%E2%8C%A9=sv/  

C'est systématiquement la même structure.

Normalement, les liens sont du type

lang-fr/photo-84/main_back-photo3b/

Je n'arrive pas à trouver quelque chose dans mon code qui en serait la raison et je n'arriver pas à reproduire l'erreur.

Et il n'y a que slurp qui me le fait :-(

Une question : %E2%8C%A9 , ca veut dire quoi en caractères normaux ?

François

Lien vers le commentaire
Partager sur d’autres sites

Une question : %E2%8C%A9  , ca veut dire quoi en caractères normaux ?

En caractères "normaux", ça pourrait être 〈 (a circonflexe, OE ligaturé, copyright) ou une sorte de < ("left-pointing angle bracket" = 〈 = ucode2329).

Comme le dit Dan, tu renvoies des erreurs 404, donc il n'y a pas de souci à se faire, à moins que les liens mal construits ne soient sur ton propre site.

Jean-Luc

Lien vers le commentaire
Partager sur d’autres sites

En caractères "normaux", ça pourrait être â© (a circonflexe, OE ligaturé, copyright) ou une sorte de < ("left-pointing angle bracket" = 〈 = ucode2329).

Comme le dit Dan, tu renvoies des erreurs 404, donc il n'y a pas de souci à se faire, à moins que les liens mal construits ne soient sur ton propre site.

Jean-Luc

<{POST_SNAPBACK}>

A priori, ca pourrait être donc 〈= mais je n'en ai plus en théorie. par contre, je ne voie pas d'où viendrait le < ???

Va falloir que je cherche dans mes fichiers. Le probleme est que c'est une fonction qui s'occuppe du changement de langue.

Bon, bah au boulot ...

François

Lien vers le commentaire
Partager sur d’autres sites

D'après ce que tu dis, je pense à une confusion entre ton paramètre de langue et l'entité HTML .

Tu a écris (ou tu as cru écrire) /blabla.php?machin=abc&lang=en et quelqu'un a lu /blabla.php?machin=abcen, puis converti le en %E2%8C%A9.

Jean-Luc

P.S. Dans mon post précédent, le "<" était un exemple de "left-pointing angle bracket".

Lien vers le commentaire
Partager sur d’autres sites

  • 9 months later...

J'ai trouvé l'erreur :-)

Un fichier auquel je n'avais pas pensé car accessible uniquement par JS et dans lequel j'avais un noindex, nofollow.

Bah, Slurp a indexé et "followé" les liens :wacko:

Je ne sais pas d'ou biens l'erreur, mais je pense que c'est l'appel d'une url à parametres via un JS.

François

Lien vers le commentaire
Partager sur d’autres sites

  • 3 semaines plus tard...

Quelqu'un a une idée de la provenance d'un En ?

A priori, c'est un charactère qui s'est glissé mais je ne le trouve pas.

exemple

id_theme-22/back_theme-15En/ au lieu de id_theme-22/back_theme-15/

Comme d'hab, seul Yahoo me trouve ces erreurs là!

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...