Facettes de navigation vs crawl google

fbern · 18 Mai 2015

bonjour

dans GWT, j'ai ce message de Google : Le nombre d'URL détectées par Googlebot sur votre site est extrêmement élevé.

Cela est du aux facettes de navigation - Google crawlant l'ensemble des facettes.

Que faire, ces pages sont en noindex pour prévenir du duplicate mais cela ne protège pas du crawl quasi infini.

Je ne veux pas mettre des nofollow ! Hors je lis un peu partout que "l'obfuscation" des liens est devenu quasi impossible....

Est-ce que passe ces URL via un formulaire en post serait-une bonne solution ?

merci

**captain_torche** · 18 Mai 2015

Comment sont gérées tes facettes ?

SI ce sont des liens qui pointent tous vers une page de résultats de recherche, effectivement ça pose un souci.

fbern · 18 Mai 2015

Comment sont gérées tes facettes ?

SI ce sont des liens qui pointent tous vers une page de résultats de recherche, effectivement ça pose un souci.

Traditionnellement gérées, je dirai : passage de paramètres....

**captain_torche** · 18 Mai 2015

Via des urls, ou via un formulaire ?

fbern · 18 Mai 2015

Via des urls, ou via un formulaire ?

Justement via des URL classiques en get...

**captain_torche** · 18 Mai 2015

Donc, c'est normal que ça foute la merde.

Un formulaire qui se validerait en un seul clic peut effectivement corriger le problème, mais si tu peux le mixer avec des urls "en dur" pour certaines parties (Du moment que ces urls respectent le nommage des autres urls de ton site), c'est encore mieux.

fbern · 18 Mai 2015

oui bien sûr c'est cela qui fout la m@ç!*de,

je cherche la meilleure solution. Qu'entends tu par URL en dur ?

Et comment passer des liens hypertexte en POST ?

**captain_torche** · 18 Mai 2015

url "en dur" = url normale, pour les parties de tes facettes qui correspondent à des pages réelles de ton site.

Pour le reste, pas d'url dans ton formulaire, mais simplement un traitement de formulaire normal : si je demande le produit1 en taille2 et couleur3, on n'affiche que des résultats correspondants.

fbern · 18 Mai 2015

Merci beaucoup

mais comment je fais pour les liens hypertextes ?

**captain_torche** · 18 Mai 2015

Pour les liens hypertexte, tu ne changes rien, a priori, si les liens actuellement en place correspondent à des liens légitimes de ton site.

fbern · 18 Mai 2015

non les liens peuvent emmener vers des filtres de listes : donc google rentre et crawl quasi infiniment.

**captain_torche** · 19 Mai 2015

C'est justement pour ça que ces liens doivent être remplacés par un formulaire.

fbern · 19 Mai 2015

C'est justement pour ça que ces liens doivent être remplacés par un formulaire.

je suis débutant en html : on peux passer un lien hypertexte via un formulaire en Post ?

PieceMobile · 19 Mai 2015

Bonjour,

Petite précision :

Nous avons tous les paramètre d'URL infinis bloqué et n'avons pas ce message.

A mon avis il ne s'agit pas tout a fait de crawl, mais d'indexation.

Que dit ton état de l'indexation ( nb page indexées ) vs Sitemap ( nb réel de page sur ton site ) ?

A mon avis ton problème se situe plus dans les paramètre d'URL mal exclus de Robots.txt, a vu de nez

fbern · 22 Mai 2015

merci je regarde...

karnabal · 25 Août 2015

Hors je lis un peu partout que "l'obfuscation" des liens est devenu quasi impossible....

Tu le lis peut-être un peu partout, mais un brouillage de lien est toujours possible. Il suffit de l'appuyer sur un encodage suffisamment complexe pour que les bots soient incapables de déceler la présence d'un lien.

**Cariboo** · 26 Août 2015

Je donne une astuce testée sur pas mal de plateformes pour régler le pb du crawl des facettes.

La façon 100% efficace d'empêcher le crawl d'urls, c'est d'utiliser le fichier robots.txt. Mais au départ on ne peut pas, parce que tantôt la syntaxe correspond à une url que l'on veut voir crawler et indexée, tantôt à une syntaxe que l'on veut bloquer...

La solution c'est d'utiliser deux syntaxes d'urls selon les cas :

- la syntaxe que l'on veut bloquer. En général c'est la syntaxe brute, genre url technique http://www.domaine.com/search.asp?cat=123&sku=458&taille=44

et on bloque tout se ce qui commence par search...

- la syntaxe que l'on veut voir crawler et indexer : et pour cela on réécrit l'url : http://www.domaine.com/r/search.asp?cat=123&sku=458&taille=44mais on peut aussi en profiter pour avoir une url plus "pretty"

A chaque fois que l'on affiche sur le site un lien que l'on veut voir crawler et indexer : on le présente avec la syntaxe réécrite. Pour les autres cas : la syntaxe brute. Et hop le tour est joué.

C'est compatible avec l'astuce de captain_torche (qui est aussi une vraie bonne pratique que je recommande) : pour accéder aux pages filtrées, tu auras deux chemins :

- le formulaire qui te fait atterrir sur la syntaxe brute. Comme cela, si un petit malin copie colle l'url de ta page filtrée par facettes sur un autre site, et Google découvre l'url, Google ne crawlera toujours pas cette syntaxe

- les liens en dur présents dans la navigation (menus, suggestions etc...) qui utilisent la syntaxe réécrite

Et pour info : le message sur le nombre anormalement élevé d'urls est bien lié aux urls crawlables, découvertes sur le site, et n'a rien à voir avec l'indexation.

fbern · 24 Septembre 2015

Merci pour toutes vos réponses, je pensai bien au robots.txt mais je pensais que s'en servir pouvoir modifier une arithmétique de type PageRank ?

fbern · 30 Mai 2016

bonjour je reviens sur ce sujet,

comment bloque t-on un paramètre en particulier dans le robots.txt

par exemple "size="

merci de votre aide

Connexion

Facettes de navigation vs crawl google

Sujets conseillés

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Lien vers le commentaire

Partager sur d’autres sites

Veuillez vous connecter pour commenter

Contenu similaire