Version complète: sur le forum Webmaster Hub : Google n'aime pas l'url rewriting
Webmaster Hub > Promotion de Sites Internet > Techniques de Référencement
Pages: 1, 2
Cariboo
C'est officiel : Google n'aime pas la réécriture d'urls...

J'ai toujours été étonné de voir que pour beaucoup, le SEO consistait principalement à écrire des mots clés dans des urls présentées comme jolies, ou "search engine friendly". Par exemple beaucoup de CMS, qui se vantent d'être optimisés pour le SEO, n'offrent en réalité qu'une solution pour avoir des urls "SEF".

Mon discours a souvent détonné, étant par expérience circonspect sur l'intérêt des SEF.

J'ai souvent dit par exemple :
- que le poids des mots clés dans les urls était faible dans l'algo
- que pas d'url rewriting était mieux à coup sûr qu'un mauvais url rewriting
- qu'il valait mieux éviter de réécrire les urls si cela engendrait des redirections compliquées ou des urls "hiérarchiques" (genre /rub1/rub2/rub3/ficheproduit.html)

J'ai eu l'occasion de rappeler encore ce point de vue "prudent" sur l'intérêt des SEF urls dans la présentation que j'ai faite pour mon agence au salon ecommerce.

Mais là c'est Google qui le dit !

http://googlewebmastercentral.blogspot.com...tatic-urls.html

(les esprits mal placés, après avoir lu l'article, constateront que le blog de google ne suit pas forcément ces recommandations LOL)

"Does that mean I should avoid rewriting dynamic URLs at all?
That's our recommendation, unless your rewrites are limited to removing unnecessary parameters, or you are very diligent in removing all parameters that could cause problems. If you transform your dynamic URL to make it look static you should be aware that we might not be able to interpret the information correctly in all cases."

A la lecture de l'article, on comprend que l'url rewriting gêne surtout Google pour crawler de manière "astucieuse" les sites.

Mais est-ce que cela signifie que le "mot clé dans l'url" n'a plus de poids ? r_question6161.gif

Trois hypothèses :
1. Il en a toujours. Mais Google n'en a cure, le problème du crawl est devenu plus important.
2. Il en a moins. Google juge que les mots clés dans l'url ne l'aident pas à déterminer si une page est une réponse pertinente à une requête. Dans ce cas, il peut privilégier le crawl.
3. Il en a toujours, mais Google veut que l'on distingue plus facilement les urls statiques et dynamiques, pour que les mots clés comptent dans les urls statiques et disparaissent des autres.

En tout cas, on pourra noter que Google trouve les urls "SEF" plus du tout "friendly". wink.gif

Il va falloir les rebaptiser SEU "search engine unfriendly" lol
olitax
Bonsoir,

Merci pour l'information Cariboo ! Même si au premier regard j'ai cru avoir mal lu le titre biggrin.gif Mais finalement non...

Et pour les autres moteurs de recherche ? Que faire ? wacko.gif

Olitax-
++
yuston
Le problème c'est aussi que l'URL rewriting est d'un point de vue "humain/utilisateur" plus ergonomique. Voir une adresse du type /categorie/id-nom-article-mot-cle.html c'est toujours plus rassurant que /articles.php?categorie=1&idarticle=1
Donc le discours de Google change? Ne faites plus les sites pour les utilisateurs, mais faites les pour les robots?
KaRaK
Hello,

D'après ce que j'ai compris, google indexe sans problème les urls avec paramètres du type :

-http://www.example.com/article/bin/answer.foo?language=en&answer=3&sid=98971298178906&query=URL

Ils ont un algo capable de supprimer les paramètre inutiles et donc de régler des problèmes de duplicate content, ce qui deviendra :

-http://www.example.com/article/bin/answer.foo?language=en&answer=3

Certains rewrites posent des problèmes à Google, par exemple :
www.example.com/article/bin/answer.foo/en/3/98971298178906/URL

Tout simplement par que dans ce cas là, leur algo de suppression de paramètre et d'anti-duplicate est inefficace. Mais à mon avis cela ne signifie pas que Google n'aime pas l'url rewriting, juste certains types de rewrite.

Concernant l'utilité de placer des mots clés et l'impact sur le ranking, cela semble être au mieux un léger bonus sinon sans effet et au pire un moyen de détecter des sur-optimisations.

Par ailleurs, le mythe du bénéfice de la réecriture des urls de .php en .html semble également s'envoler...

Jeanluc
Je partage le point de vue de yuston: des URL bien réécrites sont un plus pour l'internaute.

Et que cela plaise à Google ou non, cela me laisse complètement indifférent. smartass.gif

Ce poste qu'ils ont publié est indécent. Il prend les webmasters pour des naïfs qui seraient prêts à abandonner l'URL rewriting pour que les robots et les ingénieurs de Google doivent un peu moins se fatiguer. Non mais ! Les ingénieurs de Google ont à être plus créatifs pour optimiser leur moteur, plutôt que d'essayer de forcer les choses avec des méthodes aussi mal pensées que le rel="nofollow" ou que ce post publié sur leur blog pour webmaster.

Jean-Luc
ams51
Comme je l'ai lu dans les commentaires
On doit maintenant faire des sites pour les robots et plus pour les visiteurs wink.gif

Franchement le rewriting simplifie beaucoup la lisibilité des urls...
alain-b
A mon avis, l'URL Rewriting n'a aucun intérêt pour l'Internaute.
Le poids des mots clé me semble très faible, voire nul pour des pages "dynamiques" donc qui ont une durée de vie courte ( site d'actualité)
Pour des pages réellement "statiques" (disons qui sont faites pour durer) avec un contenu riche et éventuellement mis à jour, le positionnement est surement amélioré au bout de plusieurs mois par le poids de l'url.
Kioob
Je suis entièrement d'accord avec KaRaK ; il s'agit juste des "rewriting mal foutus" que Google n'aime pas. Pour ma part il ne me serait jamais venu à l'idée de coller un identifiant de session ou un referer dans un rewriting (déjà mettre l'ID de session dans l'URL... hem). Je ne comprends même pas ce qui a pu pousser certains à faire ça.

Sinon tout comme les autres, pour moi le rewriting est avant tout pour améliorer la lisibilité/confort de l'internaute, pas pour le référencement.
Leonick
Moi, ce que j'ai compris c'est qu'ils n'aiment pas le mauvais rewriting, du genre qui si on appelle la page www.example.com/rep1/id-mapage on puisse aussi y accéder par www.example.com/rep2/id-mapage ou www.example.com/rep1/rep2/rep3/id-mapage
Et un certain nombre de sites sont faits comme cela.
Alors ensuite, comment ranger la page ? elle sera raccrochée à quelle catégorie ? car comme cela fait du duplicate content, il faut bien donner la priorité à une des pages.
Eti.n
C'est encore un bel exemple de notre problématique à tous : comment trouver un bon compromis entre référencement optimum et site lisible/beau/agréable pour l'utilisateur final...les deux étant incompatibles...

Pour les url, je me place dans le cas du tourisme que je connais bien, par exemple, je pense que si on veut être bien positionné et indexé une page sur les restaurants à Paris dans le 19, il est préférable d'avoir dans l'url :

/restaurants-paris19. ou un truc du genre...

Plutôt qu'une url n'ayant ni queue ni tête : cela rassure, exprime clairement le contenu que l'internaute est censé trouvé sur la page... pour encore une grande partie des utilisateurs qui ne sont pas comme nous, cad qui connaissent encore mal le web, il faut toujours être ultra-explicite et rassurant, surtout quand c'est pour vendre quelque chose derrière...

Pour les pages qui ont moins d'importance, aucun problème pour laisser des url ayant peu de sens aux yeux des utilisateurs.

Donc je dirais d'accord pour que le rewriting ne soit pas systématique sur toutes les url.
Pas d'accord pour certaines pages importantes pour le site et pour les utilisateurs.


JokoZetla
Merci pour l'article, c'est tres intéressant, mais comme la majorité, je trouve dommage de laisser des paramètres aussi complexe qui ne veulent rien dire pour l'internaute, plutot qu'une URL claire facilement copiable et qui, il faut le dire, ressemble a quelque chose wink.gif
captain_torche
Ce que je retiens de l'article, c'est que si on doit passer une pléthore de paramètres, il ne faut pas faire de réécriture, afin de permettre à Google de trier ces paramètres. Dans le cadre d'une réécriture "normale", il n'y a aucun souci.
Sebastien
Ce que dit Google ce n'est pas que l'URL rewriting est mal en soi, mais qu'il est dangereux pour le site, car une régle mal écrite peut poser des problèmes d'indexation et/ou de duplicate. Dans le doute mieux vaut s'abstenir donc de son point de vue.
karnabal
CITATION
je pense que si on veut être bien positionné et indexé une page sur les restaurants à Paris dans le 19, il est préférable d'avoir dans l'url

Positionné en terme d'image peut-être, en terme de position chez Google, clairement non, aucun impact (ou minime, si le lien porte sur l'anchor text). Quand à l'indexation, pas d'impact non plus.
Nicolas
J'ai des sites sans rewriting qui se portent très bien d'un point de vue référencement ;-)

Lorsque je rewrite c'est pour avoir des urls "propres". Ca me sert déjà en interne pour vérifier plus facilement l'indexation de chaque page (et nouvelle page).
Après si ca apporte quelque chose au niveau du positionnement tant mieux sinon ce n'est pas grave car ce n'est pas le but initial (dans mon cas).

Je pense qu'il est difficile de prouver que ca apporte quelque chose de significatif. Ce n'est pas dit que ca apporte absolument rien non plus ;-)
Dan
Je pense qu'il faut analyser les besoins au cas par cas.
Par exemple, Invision s'indexe très facilement sans réécriture, alors que PhpBB2 ne s'indexe pas (ou presque)

Donc, inutile de se lancer tête baissée dans de la réécriture. Je l'ai fait pour le site http://www.lisons.info parce qu'il est tout de même plus parlant d'avoir une URL avec le nom de l'auteur plutôt que simplement son numéro.
Galdon
Pour moi l'URL rewriting est une bonne chose car c'est plus agréable et facile à utiliser pour l'utilisateur (et au passage ça permet d'avoir des stats plus précises, car GG Analytics ne tient pas compte par défaut des paramètres dans les URL par exemple).

Après, certains CMS ou sites abusent de cette fonctionnalité pour injecter des tonnes de mots clé dans l'URL. Et cela va à l'encontre de ce que j'ai dit précédemment puisque ça rend les URL plus longues donc plus bordéliques (je me permets), et par conséquent plus complexes.
tribords
Je pense que le vrai souci de Google c'est de confondre dossiers et pages, et que vu qu'ils ne sont pas dans le serveur "physique" de chaque site, c'est vrai qu'un mauvais rewriting peut porter à confusion.

Toutefois, je vois une très bonne application à l'usage pour le rewriting : retrouver une page facilement. Vous aurez noté que Firefox 3 vous permet de retrouver les adresses consultées "on the fly" au fur et à mesure que vous tapez.

J'utilise personnellement cette fonction comme un moteur de recherche pour retrouver une page qui m'a intéressé (veille, etc) et je pense que l'appli se base sur le titre de la page mais aussi son url. Avoir des mots clés dans son url peut aussi amener du trafic par là.

Tout dépend comment on fait l'url "réécrite" : je pense qu'une simple extension suffit à Google pour ne plus flipper sur le coté "dossier ou pas dossier" ?
fandecine
Etant donné que google ne dispose d'aucun moyen fiable de savoir si une url est re-écrite, il serait plus sage de dire que Google n'aime pas les urls complexes et/ou malfoutus wink.gif

L'url rewriting n'a rien a voir avec tout ça, c'est juste une technique !
Patrick
Fandecine, pourrais-tu étayer un peu plus ton propos et nous éclairer sur ce qui te permet d'affirmer sans équivoque possible que Google n'a aucun moyen fiable de détecter de l'url rewrinting ?

++

Patrick
Jeanluc
Patrick,

L'URL rewriting est entièrement réalisé à l'intérieur du serveur web. Aucune entité extérieure (moteur de recherche ou navigateur) ne sait ce que fait le serveur web de l'URL reçue avant d'en afficher le contenu. A l'extérieur du serveur web, personne ne peut savoir de manière techniquement certaine s'il y a eu réécriture d'URL ou pas.

Un moteur de recherche pourrait éventuellement rassembler des présomptions concernant l'URL rewriting à partir de la détection de duplicate content ou de l'observation des en-têtes HTTP. Comme fandecine, je suis convaincu que Google ne veut pas lutter contre l'URL rewriting, mais contre les URL mal foutues et contre les sites à la structure embrouillée (pages vides et duplicate content) ou abusive (génération automatique de pages, par exemple).

Jean-Luc
Patrick
Merci Jeanluc pour ton rappel sur le fonctionnement de l'url rewriting.
Tu n'apportes pas de réponses à ma question et je ne pense pas qu'une conviction, surtout en matière de SEO, soit suffisante pour être aussi affirmatif que l'est Fandecine. Je réitère donc mon souhait d'avoir l'explication de Fandecine sur ce point, s'il le veut bien smile.gif

J'ai appris à être très prudent en ce qui concerne les moteurs de recherche. Il y a quelques mois tous le monde était convaincu que Google faisait la chasse aux annuaires (surtout ceux en réseau) et blablabla. Bref aujourd'hui il y a toujours autant d'annuaires, autant de réseaux d'annuaires et même des articles "très sérieux" commencent à démentir la prétendue chasse aux annuaires !

++

Patrick
Kioob
Patrick : parce que c'est le cas. L'URL rewriting ne laisse absolument aucune trace coté "client", il n'y a rien du tout qui puisse permettre à qui que ce soit de s'avoir qu'il y a du rewriting. Même si un moteur décidait de pénaliser ou favoriser le rewriting, ce ne serait pas techniquement faisable.
Seulement si c'est mal fait qu'il y a des pages en double à différentes URL ou autres joyeusetées de ce genre, là ça peut poser problème : Google doit alors tenter de détecter les pages en double afin de "nettoyer sa base".
Typiquement mettre un ID de session en rewriting, ça empêche de Google de facilement voir que c'est un ID, et donc à chaque consultation du site il se retrouve avec des centaines/milliers de nouvelles URL... alors qu'il s'agit des mêmes pages.

Bref comme dis plusieurs fois au dessus, ce que Google n'aime pas c'est la mauvaise utilisation du rewriting.

EDIT : hem, j'avais loupé plusieurs messages en fait.... donc ça fait un peu doublon tongue.gif
Patrick
Pas tout à fait d'accord !

Réponse du header pour une page html "non rewritée"
CITATION
(Status-Line) HTTP/1.1 200 OK
Date Sat, 18 Oct 2008 13:20:33 GMT
Server Apache/2.2.X (OVH)
Vary Accept-Encoding
Content-Encoding gzip
Content-Length 1875
Keep-Alive timeout=5, max=100
Connection Keep-Alive
Content-Type text/html


Réponse du header pour une page html "rewritée"
CITATION
(Status-Line) HTTP/1.1 200 OK
Date Sat, 18 Oct 2008 13:19:19 GMT
Server Apache/2.2.X (OVH)
X-Powered-By PHP/4.4.9
Vary Accept-Encoding
Content-Encoding gzip
Content-Length 2369
Keep-Alive timeout=5, max=100
Connection Keep-Alive
Content-Type text/html


Les pages sont du même site histoire de na pas remettre en cause la réponse du header.

La différence est visible, donc parfaitement traitable par les robots ? Non ?

++

Patrick
Jeanluc
C'est traitable par des robots (j'y faisais allusion dans ma réponse précédente), mais c'est généré par le serveur web, donc un webmaster adroit peut y mettre ce qu'il veut.

Pourquoi penses-tu que Google serait opposé à l'URL rewriting en tant que tel ?

Jean-Luc
Patrick
Je n'ai jamais dis penser que Google était opposé à l'url rewriting, ne me fait pas dire ce que je n'ai pas dis. Ma question est toujours la même, assez simple je pense : qu'est ce qui permet à Fandecine d'être aussi affirmatif. Rien de plus tongue.gif

++

Patrick

CITATION(fandecine @ samedi 18 octobre 2008 à 12:15) *
Etant donné que google ne dispose d'aucun moyen fiable de savoir si une url est re-écrite
Jeanluc
CITATION(Patrick @ samedi 18 octobre 2008 à 15:39) *
Ma question est toujours la même, assez simple je pense : qu'est ce qui permet à Fandecine d'être aussi affirmatif.
Désolé de ne pas avoir été convaincant à tes yeux. Je souhaite plus de chance à fandecine. wink.gif

Jean-Luc
Patrick
Ne soit pas désolé, tes réponses sont de qualités.
Mais comme il est possible de voir via la réponse du header quand une page est rewrité et que je pense que Google est tout à fait capable de lire ce genre de réponse, je me demande juste ce qui permet à Fandecine d'être aussi affirmatif en disant que Google ne peut pas voir quand une page est rewrité.

Voili voilou

++

Patrick
Jeanluc
CITATION(Patrick @ samedi 18 octobre 2008 à 16:58) *
... comme il est possible de voir via la réponse du header quand une page est rewrité
Pas exactement.

L'option expose_php dans php.ini permet de cacher ou d'afficher un message comme "X-Powered-By PHP/4.4.9" à l'exécution d'un script PHP. Si l'option est désactivée, ce message n'apparaît jamais.

Même si l'option est activée, elle ne permet pas de distinguer /keyword1-keyword2.php non-rewrité de /keyword1-keyword2.php rewrité vers /show.php?post=1234 puisqu'il s'agit de toute façon de scripts PHP.

Jean-Luc
Nicolas
En fait je ne vois pas bien pourquoi Google chercherait à savoir si l'url est réécrite ou non. La vous etes rentré dans un débat qui n'a peut être pas lieu d'être.

Par contre il peut détecter une sur optimisation. J'ai déjà vu des urls avec 4 fois le même mot clé et je suppose que ceux qui font ça répète le mot des dizaines de fois sur leurs pages etc donc ca comporte des risques de déclassement. Et pas besoin de savoir si l'url est réécriture pour voir ce type de suroptimisation.

Après je ne vois pas pourquoi Google pénaliserait des URLs propres ou au contraire qu'il leurs donnerait beaucoup d'importance.
Je ne vois pas pourquoi les urls non réécrites seraient pénalisées par rapport aux urls propres. Il y a beaucoup de pages php (ou asp) qui ressortent dans les SERPs.

En admettant que les urls propres offre un petit plus pour le positionnement (ce qui reste à prouver) elles ne sont pas indispensables.
Je pense que les urls propres c'est plus pour soi (plus grand facilité à vérifier l'indexation de ses pages, url plus parlante pour le visiteur ...) que pour le positionnement dans les moteurs. Donc à utiliser dans certains cas uniquement et comme il faut car des urls mal réécrites ca peut être plus pénalisant qu'autre chose.
Patrick
CITATION(Jeanluc @ samedi 18 octobre 2008 à 17:36) *
Pas exactement.

L'option expose_php dans php.ini permet de cacher ou d'afficher un message comme "X-Powered-By PHP/4.4.9" à l'exécution d'un script PHP. Si l'option est désactivée, ce message n'apparaît jamais.

Même si l'option est activée, elle ne permet pas de distinguer /keyword1-keyword2.php non-rewrité de /keyword1-keyword2.php rewrité vers /show.php?post=1234 puisqu'il s'agit de toute façon de scripts PHP.

Jean-Luc

Tu aimes avoir raison toi ! Je parle de .html, tu parles .php ! Ce n'est pas parce que c'est détectable en .php que ça ne l'est pas en .html, ta réponse ne concerne qu'un cas particulier !
Si tu veux pousser plus loin il est évident que tout est masquable, trucable, bidouillable, et merdable !
Je reste dans un contexte générale ! C'est si compliqué que ça à comprendre ?
Le cas du pt'it gars qui a son site sur un hébergement mutualisé et qui a fait de l'url rewriting sans se prendre pour un dieu du hack et vouloir tout bidouiller, bref le cas de quelques millions de site quoi !

Sérieusement tu en connais beaucoup toi des gestionnaires de site commerciaux avec url rewriting qui modifient l'option expose_php dans php.ini ? MDR !!!

CITATION(Nicolas @ samedi 18 octobre 2008 à 18:37) *
En fait je ne vois pas bien pourquoi Google chercherait à savoir si l'url est réécrite ou non. La vous etes rentré dans un débat qui n'a peut être pas lieu d'être.


Tiens en voilà enfin un qui a mis le doigt sur ce que je voulais faire comprendre, sans le dire ...
Bien vue Nico

Okay c'est peut-être tordu comme façon de faire mais au moins c'est très instructifs smartass.gif

++

Patrick
Dan
Je rejoins Jean-Luc, en confirmant qu'on peut faire apparaître exactement ce que l'on veut dans les entêtes. On peut masquer complètement le php et faire croire qu'une URL se terminant par .html est une vraie page html, et non une URL réécrite.

En ce qui concerne le fait de masquer ou non la présence de php, c'est très simple comme le dit Jean-Luc.
L'entête de http://www.lisons.info donne ceci et ne renseigne absolument pas sur la présence de php :
CITATION
URL: http://www.lisons.info/
HTTP/1.1 200 OK
Date: Sat, 18 Oct 2008 17:14:40 GMT
Server: Apache/2
Vary: Accept-Encoding,User-Agent
Content-Encoding: gzip
Content-Length: 3342
Connection: close
Content-Type: text/html

Le site est pourtant bien écrit en php (que je ne masque même pas vu que je laisse les extensions .php, alors que j'aurais pû facilement les mettre en .html)
On peut même masquer le Server : Apache/2 ...

Mais comme le dit Nicolas le débat n'est pas là.

Avant de dire "Google n'aime pas", il faut lire précisément ce qu'ils n'aiment pas (d'ailleurs à juste titre).
J'ai vu tellement d'URLs bizarres (comprendre "mal réécrites") que je peux admettre que pour un moteur il y ait de quoi y perdre son latin.
Et des URLs de type -http://domaine.tld/archive/2008/janvier/12/article/15/page/4.html n'apportent rien.
Sauf si on essaie de se positionner sur les mots archive, janvier, article ou page ... je doute que cela serve au positionnement.
Patrick
CITATION(Patrick @ samedi 18 octobre 2008 à 18:48) *
Si tu veux pousser plus loin il est évident que tout est masquable, trucable, bidouillable, et merdable !


CITATION(Dan @ samedi 18 octobre 2008 à 19:20) *
Je rejoins Jean-Luc, en confirmant qu'on peut faire apparaître exactement ce que l'on veut dans les entêtes. On peut masquer complètement le php et faire croire qu'une URL se terminant par .html est une vraie page html, et non une URL réécrite.

On est donc tous d'accord sur ce point.
Effectivement le débat n'est pas de savoir ce que Google ou non peut détecter. J'ai simplement voulu faire comprendre à Fandecine qu'il était risqué d'être trop affirmatif dans ce qu'on apporte dans un form ouvert à tous. Affirmer que Google n'a aucun moyen de détecter l'url rewriting ne me semble pas judicieux alors qu'il est très facile de le faire dans de très nombreux cas juste en regardant la réponse du serveur à l'appel d'une page. Comme de juste ce qui est bien avec Internet c'est que pour chaque "vérité" il y a son contraire, il est donc vrai qu'il est toujours possible de rendre l'url rewriting impossible à détecter, mais cela n'empêche pas qu'il possible de le faire dans certains cas !
L'urlrewriting doit cependant, pour avoir une once d'efficacité pour le référencement (je ne parle du fait qu'il simplifie la vie aux internautes en rendant les urls plus explicites) être très judicieusement utilisé. Tous ce qui est inutile doit systématiquement disparaitre de l'url (comme la date d'écriture d'un billet de blog) comme les références produits qui n'apprennent rien, comme les répétition de mots-clés qui sont tout aussi absurde.
L'urlrewriting doit-être utilisé uniquement dans un but de simplification dans la compréhension d'une url et non pas un moyen de placer des mots-clés supplémentaires.

Sur ce bon rewriting !

++

Patrcik
Dan
CITATION(Patrick @ samedi 18 octobre 2008 à 19:32) *
Tous ce qui est inutile doit systématiquement disparaitre de l'url (comme la date d'écriture d'un billet de blog) comme les références produits qui n'apprennent rien, comme les répétition de mots-clés qui sont tout aussi absurde.
L'urlrewriting doit-être utilisé uniquement dans un but de simplification dans la compréhension d'une url et non pas un moyen de placer des mots-clés supplémentaires.

Là on ne peut qu'être absolument d'accord avec toi wink.gif
Dudu
Salut
CITATION(Patrick @ samedi 18 octobre 2008 à 19:32) *
J'ai simplement voulu faire comprendre à Fandecine qu'il était risqué d'être trop affirmatif dans ce qu'on apporte dans un form ouvert à tous. Affirmer que Google n'a aucun moyen de détecter l'url rewriting ne me semble pas judicieux alors qu'il est très facile de le faire dans de très nombreux cas juste en regardant la réponse du serveur à l'appel d'une page.
Ben non IMSTP6.gif
Ton exemple plus haut ne me prouve absolument pas qu'il est "très facile de [détecter de la réécriture] dans de très nombreaux cas en regardant la réponse du serveur à l'appel d'une page".

Et je le prouve.
Une page avec extension .php va -par défaut- être considérée par le serveur comme une page écrite en PHP-HTML et va donc l'envoyer à l'interpréteur PHP (pour l'ASP, le JSP et les autres c'est pareil)
Une page avec extension .html va -par défaut toujours- être considérée par le serveur comme une page écrite en pur HTML sans le moindre langage de programmation et ne va pas être envoyée à l'interpréteur.

Mais ça, ce sont les paramètres par défaut !

Je vais reprendre si tu le veux bien ton autre exemple du p'tit gars sur son mutualisé qui a son petit site tranquille et débonnaire et qui n'a rien demandé à personne.

Ce p'tit gars c'est moi, et j'ai un site statique: toutes mes pages ont une extension .html
Ah ben oui, mais là je commence à avoir beaucoup de pages et j'en ai marre de modifier tous mes fichiers html pour changer un simple pied-de-page sur toutes les pages.
Je passe donc à PHP, ça va me simplifier l'existence, je n'aurai plus qu'à modifier mon fichier include-footer.php !
Problème: je ne veux pas changer mes URLs (notamment pour des questions de référencement), alors je demande juste à l'interpréteur PHP d'interpréter aussi mes pages .html comme étant du PHP-HTML et non de l'HTML pur.

(J'ai vu personnellement ce genre de cas plusieurs fois sur le Hub, qui tu le dis toi-même, est un forum ouvert à tous.)

Et bien jamais de la vie il n'y a eu de réécriture d'URL, et pourtant mes pages .html vont renvoyer une en-tête "X-powered by PHP" !


Conclusion: si vraiment j'osais biggrin.gif je dirais presque que c'est toi qui est trop affirmatif lorsque tu dis qu'il est possible de détecter de la réécriture d'URL sur un site lambda qui n'a pas modifié son php.ini, qui ne masque rien du tout de sa version de PHP,....
... "bref le cas de quelques millions de site quoi !" (fin de citation; sic pour la coquille) wink.gif wink.gif



PS: fandecine, je te communiquerais mes coordonnées pour le chèque tongue.gif


Et pour en revenir au référencement, je ne suis vraiment pas convaincu que les moteurs fassent la chasse à la réécriture. Ils cherchent juste à faire du ménage dans leurs indexs, c'est compréhensible, mais à l'instar de ce qu'ils ont fait avec rel nofollow, ils nous demandent à nous webmasters d'effectuer la sale besogne.
Moi je pars du principe qu'ils veulent indexer le web, et bien indexez, messieurs. Mais dans l'état, c'est-à-dire que oui il y aura toujours des sites avec de très mauvaises réécritures, mais ça aussi ça fait partie du web, n'en déplaise à votre base de données.
D'accord ce n'est pas simple de pondre des algorithmes mais ce n'est pas non plus au webmaster de mâcher le travail des moteurs. Après tout, on n'a jamais demandé à être indexé... même si on en est bien content pour avoir du trafic.
Leonick
CITATION(Patrick @ samedi 18 octobre 2008 à 18:48) *
Sérieusement tu en connais beaucoup toi des gestionnaires de site commerciaux avec url rewriting qui modifient l'option expose_php dans php.ini ? MDR !!!
pour une question de sécurité, oui. Il vaut mieux éviter de montrer les versions de php/apache ou autres serveurs/langages pour ne pas trop aider les hackeurs
Dadou
Pour moi la problématique est simple :
- a partir du moment ou il existe un paramètre pour masquer, une partie des rewriting ne pourra pas être détecté,
- mais comme l'a expliquer Dudu, il est possible aussi de forcer Apache de traiter du .html comme du php, donc une quantité de site non rewriter serait détecté comme tel avec la partie d'entête que tu désignes Patrick.

Conclusion : le rewriting ne peut être détecté de manière fiable avec les entêtes.

CITATION(Patrick @ samedi 18 octobre 2008 à 19:32) *
L'urlrewriting doit cependant, pour avoir une once d'efficacité pour le référencement (je ne parle du fait qu'il simplifie la vie aux internautes en rendant les urls plus explicites) être très judicieusement utilisé. Tous ce qui est inutile doit systématiquement disparaitre de l'url (comme la date d'écriture d'un billet de blog) comme les références produits qui n'apprennent rien, comme les répétition de mots-clés qui sont tout aussi absurde.


D'accord sur le fait que l'url rewriting doit être la pour avoir des urls plus explicites, par contre beaucoup moins d'accord sur les exemples que tu donnes à supprimer dans les url :

- La date d'écriture d'un billet dans l'url apporte une information, mais faut elle encore qu'elle soit formaté de manière compréhensible dans l'url, de plus deux billets pourraient avoir le même titre, alors comment les différencier si ce n'est pas par la date??

- La référence d'un produit : deux produits peuvent avoir le même nom mais pas la même référence, par exemple dans le cas ou le modèle change : une référence pour l'ancien modèle, une référence pour le nouveau, il y a donc un intérêt d'avoir la référence dans l'url pour distinguer les deux page.


Par contre l'exemple de Dan : -http://domaine.tld/archive/2008/janvier/12/article/15/page/4.html est clairement une url inintéressante
- La date est mal formaté
- Page on s'en "tape"
- l'id de l'article aussi, on préfère un titre
- archive n'apporte que peux d'intérêt.

Un url à mon sens mieux écrite serait : -http://domaine.tld/12-janvier-2008-mon-titre-de-l-article.html

Nicolas
Dudu >>

Je suis d'accord avec toi pour la détection du rewriting
Je suis aussi d'accord avec toi sur l'interet très faible pour google de détecter si un site utilise l'url rewriting (je l'ai dit plus haut dans ce topic).

Par contre sur le dernier point je ne suis pas tout à fait d'accord.
Je pense que Google donne des recommandations, que ce soit par l'écriture des urls ou bien pour le reste mais il n'oblige personne à suivre ces recommandations.
Si ces recommandations permettent d'améliorer l'indexation, le positionnement, l'utilisation du coté visiteur et le suivi du coté webmaster alors c'est bon à prendre non ?

Quel est l'interet d'avoir des pages en triple dans l'index, des urls incompréhensibles ou presque pour tous, ... ?
Le webmaster a tout intérêt a avoir des pages, des urls bien écrites sans doublon etc ... Ca permet déjà de limiter les crawls inutiles et de préserver des ressources serveurs (bande passante par exemple).

Je ne pense pas que Google pénalise les sites qui ne sont pas proprement indexé (duplicate, urls à ralonge ou avec 10 parametres, ...). Donc personne n'est obligé de le faire.
Mais bon !! vu que Google c'est 90% des visites venant des moteurs je pense qu'il vaut mieux essayer d'appliquer certaines règles / conseils. Ca ne veut pas dire qu'il faut faire exactement tout ce qui dit Google ni se mettre à genoux... on est bien d'accord !!
sarc
CITATION(Dan @ samedi 18 octobre 2008 à 19:39) *
CITATION(Patrick)

Tous ce qui est inutile doit systématiquement disparaitre de l'url (comme la date d'écriture d'un billet de blog) comme les références produits qui n'apprennent rien, comme les répétition de mots-clés qui sont tout aussi absurde.
L'urlrewriting doit-être utilisé uniquement dans un but de simplification dans la compréhension d'une url et non pas un moyen de placer des mots-clés supplémentaires.

Là on ne peut qu'être absolument d'accord avec toi wink.gif

Moi, pas totalement. Quand je rajoute des mots-clefs dans mes URL, ce n'est pas pour être mieux placé sur Google (y'a d'autres moyens...), mais pour optimiser mes chances de clic sur tous les supports.
Quand quelqu'un fait un lien, sans en changer le texte, il laisse donc une url de votre site quelque part. Ne vaut-il mieux pas avoir :
CITATION
-http://www.example.com/article/4/l-url-rewriting-c-est-bien


plutôt que

CITATION
-http://www.example.com/article/4


? Bien entendu, on peut aussi s'embêter à virer le 4 avec des slugs uniques, mais je préfère quand même la première URL. Au moins, on voit directement de quoi la page va traiter, et ça rejoint à mon sens l'optimisation du Titre de la page, pour les mêmes raisons.
fandecine
CITATION(Patrick @ samedi 18 octobre 2008 à 12:54) *
Fandecine, pourrais-tu étayer un peu plus ton propos et nous éclairer sur ce qui te permet d'affirmer sans équivoque possible que Google n'a aucun moyen fiable de détecter de l'url rewrinting ?

++

Patrick


Il suffit de te poser la question "Comment reconnaitre une url rewrité ? " wink.gif

Edit: Oooops! j'avais pas vu toutes les réponses. Désolé, je lis d'abord les posts wacko.gif

Bon, j'ai relu les post depuis le mien et je ne pensais pas que je déclancherais une (légére) polémique tongue.gif

J'ai déjà discuté de ce point sur un autre forum voilà plus de deux ans et j'avais proposé quelques pages en demandant aux membres d'essayer de détecter si les url étaient rewritées ou pas. Le taux de réussite était de 50% (le hazard quoi !). J'avais même insséré dans certains header une version fantasque de PHP (la 6.0 je crois) sur une page 100% html.

On peut faire dire ce que l'on veut aux header d'une page, même faire croire que la page est délivrée par un serveur IIs avec Perl alors que le serveur est 100% linux + PHP.

Donc, ce'n'est pas par l'analyse du header d'une page que l'on peut détecter le rewriting.

Maintenant, si vous avez d'autres pistes .... wub.gif
captain_torche
CITATION(sarc @ dimanche 19 octobre 2008 à 14:29) *
Quand je rajoute des mots-clefs dans mes URL, ce n'est pas pour être mieux placé sur Google (y'a d'autres moyens...), mais pour optimiser mes chances de clic sur tous les supports.
Quand quelqu'un fait un lien, sans en changer le texte, il laisse donc une url de votre site quelque part. Ne vaut-il mieux pas avoir :
CITATION
-http://www.example.com/article/4/l-url-rewriting-c-est-bien

plutôt que
CITATION
-http://www.example.com/article/4


Quitte à travailler l'url pour qu'elle soit propre, autant y aller à fond et mettre :
CITATION
-http://www.example.com/l-url-rewriting-c-est-bien

Avec une table de correspondance, c'est pas très difficile (parce que je me fiche de savoir qu'il s'agit d'un article, et encore plus de son ID).
Par contre, ta solution est bancale à la moindre erreur de copier-coller : imaginons que je la copie-colle, mais en oubliant la dernière lettre :
CITATION
-http://www.example.com/article/4/l-url-rewriting-c-est-bie

Techniquement, ça fonctionnera : la réécriture ne capturant que "article" et "4", la page sera reconnue. Mais on aura créé du duplicate.
On peut même écrire
CITATION
-http://www.example.com/article/4/les-endives-c-est-bon-mangez-en

On atterrira sur la même page.
fandecine
CITATION(Patrick @ samedi 18 octobre 2008 à 19:32) *
J'ai simplement voulu faire comprendre à Fandecine qu'il était risqué d'être trop affirmatif dans ce qu'on apporte dans un form ouvert à tous. Affirmer que Google n'a aucun moyen de détecter l'url rewriting ne me semble pas judicieux alors qu'il est très facile de le faire dans de très nombreux cas juste en regardant la réponse du serveur à l'appel d'une page.


Tu es trés gentil Patrick mais lorsque tu me cite, prends soin d'utiliser le bouton prévu à cete effet, cela t'évitera de modifier mes propos. J'ai affirmé (et je persiste) que google n'a aucun moyen fiable de detecter une url rewrité, et je pense que la démonstration est faite.

fandecine
CITATION(Leonick @ dimanche 19 octobre 2008 à 07:55) *
pour une question de sécurité, oui. Il vaut mieux éviter de montrer les versions de php/apache ou autres serveurs/langages pour ne pas trop aider les hackeurs


et je rajoute que le rewriting permet de masquer le nom des variables utilisées en GET donc amméliore la sécurité également
Patrick
CITATION(fandecine @ dimanche 19 octobre 2008 à 15:31) *
J'ai affirmé (et je persiste) que google n'a aucun moyen fiable de detecter une url rewrité, et je pense que la démonstration est faite.

Que tu aies de fortes présomptions je veux bien le croire, mais être affirmatif sur un point de fonctionnement du moteur qui est certainement le mieux protégé de tous au niveaux des fonctionnalités sans même travailler dans la boite c'est un peu trop fort non ? Qu'est ce qui peut bien te faire penser que Google n'a pas résolu le problème depuis longtemps et est peut-être tout à fait capable de détecter avec toute la fiabilité nécessaire l'url rewriting ? Rien ne permet de l'affirmer ! Donc dans un sens comme dans l'autre (capable, incapable), être affirmatif sans laisser la moindre équivoque possible me semble carrément déraisonnable ! C'est comme si moi j'affirmai que je suis plus lourd (poids) que toi. Je l'affirme, je suis plus lourd que toi ! Comment j'affirme ça ? En me basant sur mes connaissances de mon poids, faisant plus de 100 Kg j'ai de forte chance de dire vrai, mais l'inconnue reste quand même ton poids, peut-être es tu plus lourd que moi malgré ma certitude du contraire !
Dans ton cas c'est pareil, tu affirmes sur ta propre expérience, tes propres connaissances, mais l'inconnue des possibilités de Google est toujours là, tu ne peux pas être certains à 100% des capacités de Google. Voilà où je voulais en venir, affirmer une chose alors qu'il y a une inconnue est déraisonnable ! Mais je demande qu'à me tromper, donne une preuve concrète de ce que tu avance, sans équivoque ou discussion possible. Dans ce cas je me ferai un plaisir de m'excuser et je te remercierai d'avoir fait avancer les choses.
Pour la démonstration, je suis prêt à relever un défis à conditions que celui-ci se fasse dans les conditions qui doivent représenter la plus grande majorité des sites, à savoir un hébergement mutualisé (j'offre les ndd et les hébergements mutualisés OVH), pas de modif de la config php de l'hébergeur, pas de modif des réponses en-tête http retournées par le serveur, pas de modif de l'interprétation des pages .html et les pages rewrités en .html, les pages dynamiques en .php

++

Patrick
fandecine
wacko.gif wacko.gif wacko.gif

Je ne peux absolument pas te prouver que la terre est ronde, ni qu'elle tourne autour du soleil et pourtant ....

CITATION
"si tu ne peux pas prouver que tu as raison c'est moi qui ai raison"


Ce sont des raisonnement de ce genre qui maintiennent l'ignorence et les croyances absurdes. Et la connaissance, c'est la liberté.

Mais pas de problème pour moi, Google est capable de faire ce qu'aucun admin ne peut faire (normal quoi, on est des nuls smartass.gif ) alors reste bien accroché à tes idées et surtout fait bien mine de ne pas comprendre ce que nous (je ne suis pas seul) affirmons.

En ce qui concerne les "incroyables possibilites de google" j'aimerais bien voir comment il pourrait savoir ce qui se passe sur mes serveurs tongue.gif
Jeanluc
CITATION(Patrick @ dimanche 19 octobre 2008 à 17:31) *
Dans ton cas c'est pareil, tu affirmes sur ta propre expérience, tes propres connaissances, mais l'inconnue des possibilités de Google est toujours là, tu ne peux pas être certains à 100% des capacités de Google. Voilà où je voulais en venir, affirmer une chose alors qu'il y a une inconnue est déraisonnable !
Patrick,

Il n'y a ici aucune inconnue. L'affirmation de fandecine était limpide dès le départ et je le remercie de partager ici ses idées de manière constructive, intelligente et patiente. Son affirmation a été clairement expliquée et réexpliquée par plusieurs personnes dans ce fil. Il n'y a pas lieu de faire tourner en rond la discussion avec des arguments pseudo-scientifiques.

Jean-Luc
captain_torche
Je comprends très bien la position de fandeciné, mais la réaction de Patrick est tout à fait compréhensible; il est peu judicieux d'affirmer quelque chose dont on ignore le fonctionnement.
Je suis convaincu que Google ne peut pas différencier une page bien réécrite d'une page statique (il ne peut, au mieux, qu'avoir une présomption), mais mon avis vaut ce qu'il vaut : je ne suis pas au courant des rouages du moteur. Qui me dit qu'il n'a pas une information que je ne connais pas encore qu'il puisse utiliser ? (Moi qui ignorais l'existence de l'en-tête expose_php jusqu'à aujourd'hui ?)

Pour finir, fandeciné, on peut très facilement démontrer que la terre et ronde et qu'elle tourne autour du soleil. Des expériences l'ont prouvé, et le protocole et les résultats sont accessibles par tous, et reproductibles à l'envi. Ta réaction concernant l'obscurantisme est vraiment disproportionnée à mon goût.

Kioob
Il ne s'agit pas ici d'être convaincu ou non, mais de savoir que c'est techniquement impossible étant donné qu'il n'y a rien coté client (navigateur / browser) qui permette de faire la différence. Comme déjà dit X fois au dessus, au mieux il y aura des doutes pour certains cas de rewriting "mal faits".
Le seul moyen de communication disponible pour un site Internet est le protocole "HTTP", et celui ci ne permet en aucun cas de distinguer les URL modifiées à la volée des URL non modifiées.

Rien que le fait de faire pointer "http://tondomaine.tld/toto/" vers "http://tondomaine.tld/toto/index.php" c'est du rewriting. Et tu peux vérifier les entêtes HTTP (en utilisant Live HTTP Headers par exemple), il n'y aura strictement pas la moindre différence entre les deux.
Patrick
Merci Captain pour ta compréhension, en effet je dois avouer m'y être assez mal pris.
Je voulais simplement faire comprendre qu'il est nécessaire d'être prudent sur certaines affirmations invérifiables (même si tout le monde et moi compris en sommes convaincu) sur un forum ouvert à tous. C'est comme ça que sont lancés des polémiques, des croyances qui deviennent des certitudes et paroles d'évangile par la suite pour des débutants ou néophytes. Il suffit de se rappeler les épisodes de la "fuite du PR" pour n'évoquer que celui là, pour comprendre qu'une affirmation peut engendrer des certitudes infondées !
Le but n'était absolument pas une attaque contre Fandecine ou qui que soit d'autre, je respecte tous les intervenants sur le Hub, mais simplement je voulais faire passer le message qu'un peu de pondération dans certaines affirmations ne pouvait nuire à personne. Rien de plus.
En ce qui me concerne ce débat est clôt, le message étant passé, maladroitement je peux en convenir, mais ce n'est pas la route empruntée qui compte, ce qui est important c'est d'arriver à bon port !
Merci à tous les intervenants à ce topic.

++

Patrick
Jeanluc
CITATION(Patrick @ lundi 20 octobre 2008 à 11:27) *
Je voulais simplement faire comprendre qu'il est nécessaire d'être prudent sur certaines affirmations invérifiables (même si tout le monde et moi compris en sommes convaincu) sur un forum ouvert à tous. C'est comme ça que sont lancés des polémiques, des croyances qui deviennent des certitudes et paroles d'évangile par la suite pour des débutants ou néophytes.
Tout à fait d'accord avec toi sur la prudence dont il faut faire preuve avec les affirmations invérifiables. Mais on ne peut être expert dans toutes les matières. Je fais confiance à mon médecin quand il me prescrit un médicament, même si je n'ai pas la compétence nécessaire pour vérifier son diagnostic. Je crois qu'il devrait en être de même ici. Techniquement, aucun argument n'a été avancé pour démentir les différentes explications qui prouvent que Google ne peut pas déceler l'URL rewriting de manière fiable.

Maintenant on peut toujours dire qu'une démonstration même rigoureuse n'est pas une vérité révélée, que dans 10, 100 ou 1000 ans on démontrera peut-être le contraire. Il en va de cette démonstration comme de toutes les autres. Celui qui prétend prouver que la terre est ronde n'aurait pas convaincu grand monde il y a 1000 ans.

Cette discussion philosophique serait plus à sa place dans le "salon" que sous "Techniques de référencement". hypocrite.gif

Jean-Luc
Ceci est une version "bas débit" de notre forum. Pour voir la version complète avec plus d'information, la mise en page et les images, veuillez cliquer ici.