Jump to content
fbern

Facettes de navigation vs crawl google

Rate this topic

Recommended Posts

bonjour



dans GWT, j'ai ce message de Google : Le nombre d'URL détectées par Googlebot sur votre site est extrêmement élevé.


Cela est du aux facettes de navigation - Google crawlant l'ensemble des facettes.


Que faire, ces pages sont en noindex pour prévenir du duplicate mais cela ne protège pas du crawl quasi infini.


Je ne veux pas mettre des nofollow ! Hors je lis un peu partout que "l'obfuscation" des liens est devenu quasi impossible....



Est-ce que passe ces URL via un formulaire en post serait-une bonne solution ?



merci


Share this post


Link to post
Share on other sites

Comment sont gérées tes facettes ?


SI ce sont des liens qui pointent tous vers une page de résultats de recherche, effectivement ça pose un souci.


Share this post


Link to post
Share on other sites

Comment sont gérées tes facettes ?

SI ce sont des liens qui pointent tous vers une page de résultats de recherche, effectivement ça pose un souci.

Traditionnellement gérées, je dirai : passage de paramètres....

Share this post


Link to post
Share on other sites

Donc, c'est normal que ça foute la merde.



Un formulaire qui se validerait en un seul clic peut effectivement corriger le problème, mais si tu peux le mixer avec des urls "en dur" pour certaines parties (Du moment que ces urls respectent le nommage des autres urls de ton site), c'est encore mieux.


Share this post


Link to post
Share on other sites

oui bien sûr c'est cela qui fout la m@ç!*de,


je cherche la meilleure solution. Qu'entends tu par URL en dur ?


Et comment passer des liens hypertexte en POST ?

Share this post


Link to post
Share on other sites

url "en dur" = url normale, pour les parties de tes facettes qui correspondent à des pages réelles de ton site.



Pour le reste, pas d'url dans ton formulaire, mais simplement un traitement de formulaire normal : si je demande le produit1 en taille2 et couleur3, on n'affiche que des résultats correspondants.


Share this post


Link to post
Share on other sites

Pour les liens hypertexte, tu ne changes rien, a priori, si les liens actuellement en place correspondent à des liens légitimes de ton site.


Share this post


Link to post
Share on other sites

non les liens peuvent emmener vers des filtres de listes : donc google rentre et crawl quasi infiniment.


Share this post


Link to post
Share on other sites

C'est justement pour ça que ces liens doivent être remplacés par un formulaire.


Share this post


Link to post
Share on other sites

C'est justement pour ça que ces liens doivent être remplacés par un formulaire.

je suis débutant en html : on peux passer un lien hypertexte via un formulaire en Post ?

Share this post


Link to post
Share on other sites

Bonjour,



Petite précision :



Nous avons tous les paramètre d'URL infinis bloqué et n'avons pas ce message.



A mon avis il ne s'agit pas tout a fait de crawl, mais d'indexation.



Que dit ton état de l'indexation ( nb page indexées ) vs Sitemap ( nb réel de page sur ton site ) ?



A mon avis ton problème se situe plus dans les paramètre d'URL mal exclus de Robots.txt, a vu de nez

Share this post


Link to post
Share on other sites

Hors je lis un peu partout que "l'obfuscation" des liens est devenu quasi impossible....

Tu le lis peut-être un peu partout, mais un brouillage de lien est toujours possible. Il suffit de l'appuyer sur un encodage suffisamment complexe pour que les bots soient incapables de déceler la présence d'un lien.

Share this post


Link to post
Share on other sites

Je donne une astuce testée sur pas mal de plateformes pour régler le pb du crawl des facettes.



La façon 100% efficace d'empêcher le crawl d'urls, c'est d'utiliser le fichier robots.txt. Mais au départ on ne peut pas, parce que tantôt la syntaxe correspond à une url que l'on veut voir crawler et indexée, tantôt à une syntaxe que l'on veut bloquer...



La solution c'est d'utiliser deux syntaxes d'urls selon les cas :


- la syntaxe que l'on veut bloquer. En général c'est la syntaxe brute, genre url technique http://www.domaine.com/search.asp?cat=123&sku=458&taille=44


et on bloque tout se ce qui commence par search...


- la syntaxe que l'on veut voir crawler et indexer : et pour cela on réécrit l'url : http://www.domaine.com/r/search.asp?cat=123&sku=458&taille=44mais on peut aussi en profiter pour avoir une url plus "pretty"



A chaque fois que l'on affiche sur le site un lien que l'on veut voir crawler et indexer : on le présente avec la syntaxe réécrite. Pour les autres cas : la syntaxe brute. Et hop le tour est joué.



C'est compatible avec l'astuce de captain_torche (qui est aussi une vraie bonne pratique que je recommande) : pour accéder aux pages filtrées, tu auras deux chemins :


- le formulaire qui te fait atterrir sur la syntaxe brute. Comme cela, si un petit malin copie colle l'url de ta page filtrée par facettes sur un autre site, et Google découvre l'url, Google ne crawlera toujours pas cette syntaxe


- les liens en dur présents dans la navigation (menus, suggestions etc...) qui utilisent la syntaxe réécrite



Et pour info : le message sur le nombre anormalement élevé d'urls est bien lié aux urls crawlables, découvertes sur le site, et n'a rien à voir avec l'indexation.

  • Upvote 1

Share this post


Link to post
Share on other sites

Merci pour toutes vos réponses, je pensai bien au robots.txt mais je pensais que s'en servir pouvoir modifier une arithmétique de type PageRank ?


Share this post


Link to post
Share on other sites

bonjour je reviens sur ce sujet,

 

comment bloque t-on un paramètre en particulier dans le robots.txt

par exemple "size="

 

merci de votre aide

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now

  • Similar Content

    • By fbern
      bonjour
       
      comment être sûr de détecter googlebot ?
      Il parait que le couple user-agent/IP 66.249.... n'est pas sûr à 100%
      Merci votre aide.
      fb
    • By fbern
      bonjour
       
      comment faire dans Varnish pour que Googlebot ne fasse pas la mise en cache, est-ce compliqué ?
      merci le Hub
×
×
  • Create New...