fbern Posted May 18, 2015 Posted May 18, 2015 bonjour dans GWT, j'ai ce message de Google : Le nombre d'URL détectées par Googlebot sur votre site est extrêmement élevé. Cela est du aux facettes de navigation - Google crawlant l'ensemble des facettes. Que faire, ces pages sont en noindex pour prévenir du duplicate mais cela ne protège pas du crawl quasi infini. Je ne veux pas mettre des nofollow ! Hors je lis un peu partout que "l'obfuscation" des liens est devenu quasi impossible.... Est-ce que passe ces URL via un formulaire en post serait-une bonne solution ? merci
captain_torche Posted May 18, 2015 Posted May 18, 2015 Comment sont gérées tes facettes ? SI ce sont des liens qui pointent tous vers une page de résultats de recherche, effectivement ça pose un souci.
fbern Posted May 18, 2015 Author Posted May 18, 2015 Comment sont gérées tes facettes ? SI ce sont des liens qui pointent tous vers une page de résultats de recherche, effectivement ça pose un souci. Traditionnellement gérées, je dirai : passage de paramètres....
fbern Posted May 18, 2015 Author Posted May 18, 2015 Via des urls, ou via un formulaire ? Justement via des URL classiques en get...
captain_torche Posted May 18, 2015 Posted May 18, 2015 Donc, c'est normal que ça foute la merde. Un formulaire qui se validerait en un seul clic peut effectivement corriger le problème, mais si tu peux le mixer avec des urls "en dur" pour certaines parties (Du moment que ces urls respectent le nommage des autres urls de ton site), c'est encore mieux.
fbern Posted May 18, 2015 Author Posted May 18, 2015 oui bien sûr c'est cela qui fout la m@ç!*de, je cherche la meilleure solution. Qu'entends tu par URL en dur ? Et comment passer des liens hypertexte en POST ?
captain_torche Posted May 18, 2015 Posted May 18, 2015 url "en dur" = url normale, pour les parties de tes facettes qui correspondent à des pages réelles de ton site. Pour le reste, pas d'url dans ton formulaire, mais simplement un traitement de formulaire normal : si je demande le produit1 en taille2 et couleur3, on n'affiche que des résultats correspondants.
fbern Posted May 18, 2015 Author Posted May 18, 2015 Merci beaucoup mais comment je fais pour les liens hypertextes ?
captain_torche Posted May 18, 2015 Posted May 18, 2015 Pour les liens hypertexte, tu ne changes rien, a priori, si les liens actuellement en place correspondent à des liens légitimes de ton site.
fbern Posted May 18, 2015 Author Posted May 18, 2015 non les liens peuvent emmener vers des filtres de listes : donc google rentre et crawl quasi infiniment.
captain_torche Posted May 19, 2015 Posted May 19, 2015 C'est justement pour ça que ces liens doivent être remplacés par un formulaire.
fbern Posted May 19, 2015 Author Posted May 19, 2015 C'est justement pour ça que ces liens doivent être remplacés par un formulaire. je suis débutant en html : on peux passer un lien hypertexte via un formulaire en Post ?
PieceMobile Posted May 19, 2015 Posted May 19, 2015 Bonjour, Petite précision : Nous avons tous les paramètre d'URL infinis bloqué et n'avons pas ce message. A mon avis il ne s'agit pas tout a fait de crawl, mais d'indexation. Que dit ton état de l'indexation ( nb page indexées ) vs Sitemap ( nb réel de page sur ton site ) ? A mon avis ton problème se situe plus dans les paramètre d'URL mal exclus de Robots.txt, a vu de nez
karnabal Posted August 25, 2015 Posted August 25, 2015 Hors je lis un peu partout que "l'obfuscation" des liens est devenu quasi impossible.... Tu le lis peut-être un peu partout, mais un brouillage de lien est toujours possible. Il suffit de l'appuyer sur un encodage suffisamment complexe pour que les bots soient incapables de déceler la présence d'un lien.
Popular Post Cariboo Posted August 26, 2015 Popular Post Posted August 26, 2015 Je donne une astuce testée sur pas mal de plateformes pour régler le pb du crawl des facettes. La façon 100% efficace d'empêcher le crawl d'urls, c'est d'utiliser le fichier robots.txt. Mais au départ on ne peut pas, parce que tantôt la syntaxe correspond à une url que l'on veut voir crawler et indexée, tantôt à une syntaxe que l'on veut bloquer... La solution c'est d'utiliser deux syntaxes d'urls selon les cas : - la syntaxe que l'on veut bloquer. En général c'est la syntaxe brute, genre url technique http://www.domaine.com/search.asp?cat=123&sku=458&taille=44 et on bloque tout se ce qui commence par search... - la syntaxe que l'on veut voir crawler et indexer : et pour cela on réécrit l'url : http://www.domaine.com/r/search.asp?cat=123&sku=458&taille=44mais on peut aussi en profiter pour avoir une url plus "pretty" A chaque fois que l'on affiche sur le site un lien que l'on veut voir crawler et indexer : on le présente avec la syntaxe réécrite. Pour les autres cas : la syntaxe brute. Et hop le tour est joué. C'est compatible avec l'astuce de captain_torche (qui est aussi une vraie bonne pratique que je recommande) : pour accéder aux pages filtrées, tu auras deux chemins : - le formulaire qui te fait atterrir sur la syntaxe brute. Comme cela, si un petit malin copie colle l'url de ta page filtrée par facettes sur un autre site, et Google découvre l'url, Google ne crawlera toujours pas cette syntaxe - les liens en dur présents dans la navigation (menus, suggestions etc...) qui utilisent la syntaxe réécrite Et pour info : le message sur le nombre anormalement élevé d'urls est bien lié aux urls crawlables, découvertes sur le site, et n'a rien à voir avec l'indexation. 1
fbern Posted September 24, 2015 Author Posted September 24, 2015 Merci pour toutes vos réponses, je pensai bien au robots.txt mais je pensais que s'en servir pouvoir modifier une arithmétique de type PageRank ?
fbern Posted May 30, 2016 Author Posted May 30, 2016 bonjour je reviens sur ce sujet, comment bloque t-on un paramètre en particulier dans le robots.txt par exemple "size=" merci de votre aide
Recommended Posts
Please sign in to comment
You will be able to leave a comment after signing in
Sign In Now