Aller au contenu

Faire un "robot disallow" à l'interieur d'un PDF ?


Sujets conseillés

Bonjour,

Je cherche à savoir s'il est possible d'intégrer dans un fichier PDF quelque chose qui permettrait de l'exclure de l'index de Google, ou alors une autre méthode, comme signaler le nom ou "identifiant" d'un PDF afin que Google ne le référence pas.

Pour le cas qui m'intéresse (pas mon site), il n'y a pas accès au robot.txt (plateforme de blog connue). De plus le PDF peut se retrouver ailleurs. Il s'agit d'un document destiné à être diffusé (journal local) mais contenant énormément de nom propre, donc que des gens aille le lire, pas de problème, c'est fait pour, mais que le contenu ressorte lorsqu'on fait une requête sur le nom/prénom d'une personne citée est embêtant.

Pour l'instant je n'ai trouvé aucune info à ce sujet.

Lien vers le commentaire
Partager sur d’autres sites

Merci pour ta réponse LebossTom, mais ce que je souhaiterais vraiment faire c'est rattacher le "robot disallow" au PDF lui même si c'est possible. Je pense à quelque chose du genre "meta-donnée". De plus je ne suis pas sur que l'on puisse indiquer un '"nofollow" pour une pièce attachée à un billet dans la plateforme de blog utilisée.

Lien vers le commentaire
Partager sur d’autres sites

Bonjour,

On ne peut pas mettre un "noindex" à l'intérieur d'un PDF. Ton serveur web peut mettre une en-tête "noindex" comprise par Google, sur un PDF placé sur ton site, mais si quelqu'un le publie ailleurs, cela ne sert à rien.

Un PDF ne peut-il pas être protégé par un mot de passe ? Cela ne résoudrait-il pas ton problème ?

Au niveau de la légalité concernant le respect de la vie privée, je doute que cela change quelque chose que le document soit indexé par les moteurs ou pas.

Jean-Luc

Lien vers le commentaire
Partager sur d’autres sites

Posté (modifié)

Pour l'instant il ne s'agit pas encore d'un problème de légalité relatif au respect de la vie privée. C'est plutôt qu'une fois que les gens comprendrons les implications, il risque d'y avoir des réticences, ou alors il faudra passer par des initiales plutôt que les noms complets ...etc. Sur internet l'usage d'un pseudo est courant, pour un journal local, c'est plus embêtant.

En tous cas mes recherches avancent quand même un peut. Personnellement j'utilise le PDF depuis OpenOffice ou l'imprimante virtuelle de PdfForge, et les options sont peut nombreuses. Par contre en lisant la doc online d'un des derniers outils d'Adobe il semble qu'il commence a y avoir dans les PDF des meta-données dédiées aux moteurs de recherches. Pour l'instant c'est plutôt dans l'autre sens, afin d'améliorer le référencement, un peut comme des meta-tags. Il s'agit de champs à remplir lors de la génération du fichier, un peut comme ce qu'on a dans le menu fichier|propriétés d'un document de traitement de texte.

Si quelqu'un a un lien sur une discussion de Google au sujet de la façon dont ils traitent les PDF, je suis intéressé.

EDIT : J'ai trouvé ce billet récent plutôt intéressant :

http://www.francis-marketing.com/b2b-marke...ptimizing-pdfs/

Dans mon cas, à court terme, l'intervention la plus simple sera sans doute de générer le PDF avec des images plutôt que du texte. Heureusement qu'il y a l'ADSL dans le village :D

Modifié par Pat AfterMoon
Lien vers le commentaire
Partager sur d’autres sites

Bonjour,

Dans votre cas précis où vous souhaitez simplement éviter l'indexation du PDF par les moteurs pour ne pas qu'on retrouve les utilisateurs par recherche sur leur nom, je pense que je ferais ainsi:

- un PDF peut contenir du texte (accessible directement dans le source du PDF), que les moteurs pourrons indexés.

- un PDF peut également contenir des images que les moteurs ne peuvent pas indexer, ils ne font pas d'OCR.

Ces images peuvent être des images représentant du texte.

Si vous transformez votre documents PDF en image, le document sera accessible a tous le monde, lisible mais pas indexable. Le seul inconvénient c'est qu'il sera beaucoup plus lourd (plus volumineux) , mais je pense que ça vous est égale.

Cdlt,

Marc

Lien vers le commentaire
Partager sur d’autres sites

Du texte vectorisé est une solution au problème de référencement, mais ce doit être lourd, et c'est peu accessible... Sinon pourquoi ne pas héberger les pdf sur un serveur séparé sur lequel on a la main ?

Lien vers le commentaire
Partager sur d’autres sites

Et si tu met tous tes PDF dans un repertoire et que, dans ton robots.txt, tu interdis l'accès aux robots pour ce repertoire ou encore un mot de passe sur ce répértoire ?

Modifié par n00by
Lien vers le commentaire
Partager sur d’autres sites

Autrement, essai de remplacer les noms des gens par des petites images contenant leur prénom, comme un post-it si ce serait sur une feuille réeelle, google ne l'indexera pas :)

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...