Aller au contenu

phpdig et pdf


MonWeb

Sujets conseillés

Bonjour,

Suite a mon dernier post pour installer PhpDig

http://www.webmaster-hub.com/index.php?showtopic=9404

Il me reste a installer pdftotext sur l'hergement pour que phpdig puisse lire les pdf

source http://www.phpdig.net/forum/printthread.php?t=1057

voici mon fichier de config.php avec pdftotext installé dans le répertoire cgi-bin chez ovh sur mon 90plan

// if set to true, full path to external binary required

define('PHPDIG_INDEX_PDF',true);

define('PHPDIG_PARSE_PDF','/cgi-bin/pdftotext');

define('PHPDIG_OPTION_PDF','');

define('PHPDIG_PDF_EXTENSION','.txt');

CA MARCHE PAS :angry:

Lien vers le commentaire
Partager sur d’autres sites

Tu dois avoir un problème sur les permissions du fichier pfdtotext.

Dans cgi-bin, elles sont un peu strictes. Essaies un chmod 755 sur le fichier.

Lien vers le commentaire
Partager sur d’autres sites

Ta ligne semble fausse :

define('PHPDIG_PARSE_PDF','/cgi-bin/pdftotext');

Elle devrait être du style :

define('PHPDIG_PARSE_PDF','/home/nomdomaine/cgi-bin/pdftotext');

Bref, commencer à la racine du serveur.

Une fonction pour la connaitre :

echo realpath("");

Lien vers le commentaire
Partager sur d’autres sites

Toi qui utilise phpdig, ca n'utilise pas trop de ressources serveur lors de l'indexation ?

J'aimerais l'utiliser, mais je suis en mutualisé, et j'ai pas envie que l'hebergeur me vire ...

Lien vers le commentaire
Partager sur d’autres sites

Hello,

Dan: la permission 755 sur pdftotext est ok

Anonymus: '/home/nom_utilisateur_ovh/cgi-bin/pdftotext' j'ai ce chemin mais ça marche pas. Ce que tu appelle nom de domaine dans le chemin c'est le nom d'utilisateur mutualisé OVH?

Je n'ai pas installé Ghostscript, est ce que pdftotext peut fonctionner seul?

Modifié par thierryfrancois
Lien vers le commentaire
Partager sur d’autres sites

  • 2 semaines plus tard...

Tout au début de ton script, tu places la ligne :

echo realpath("index.php");

die("");

Tu auras ainsi le chemin à mettre dans ton 'define'. (en enlevant le 'index.php'.)

Lien vers le commentaire
Partager sur d’autres sites

Oui je commence bien a la racine du serveur et phpdig me confirme l'existance de cette page en pdf mais il repond ça et ne peut pas lire les pdf, pour html ça marche bien

SITE : http://www.superfund-aviation.com/

Chemins exclus :

- _AT_NONE@

1:http://www.superfund-aviation.com/global/operations/manex/test.pdf

(temps : 00:00:06)

Pas de liens dans la table temporaire

--------------------------------------------------------------------------------

liens trouvés : 1

http://www.superfund-aviation.com/global/o.../manex/test.pdf

Optimizing tables...

Indexation terminée !

Voici les lignes exact dans mon fichiers config.php pour les external tools

//---------EXTERNAL TOOLS SETUP

// if set to true is_executable used - set to '0' if is_executable is undefined

define('USE_IS_EXECUTABLE_COMMAND','1'); //use is_executable for external binaries

// if set to true, full path to external binary required

define('PHPDIG_INDEX_PDF',true);

define('PHPDIG_PARSE_PDF','/home/superfun/cgi-bin/pdftotext');

define('PHPDIG_OPTION_PDF','');

define('PHPDIG_PDF_EXTENSION','.txt');

//---------EXTERNAL TOOLS EXTENSIONS

// if external binary is not STDOUT or different extension is needed

// for example, use '.txt' if external binary writes to filename.txt

define('PHPDIG_PDF_EXTENSION','');

Est ce que j'ai besoin de seulement "pdftotext" dans le repertoire cgi-bin pour que phpdig puisse lire les pdf ?

version de pdftotext=xpdf-3.00-linux

Merci

Lien vers le commentaire
Partager sur d’autres sites

Bonjour, j'ai exactement le même problème pour utliser pdftotext chez OVH.

J'ai essayé de lancer les commandes suivantes

exec("/home/pcdev/cgi-bin/pdftotext toto.pdf",$tab,$error)

exec("/home/pcdev/cgi-bin/pdftotext ./toto.pdf",$tab,$error)

exec("/home/pcdev/cgi-bin/pdftotext http://www.pc31dev.net/toto.pdf",$tab,$error)

exec("/home/pcdev/cgi-bin/pdftotext /home/pcdev/www/toto.pdf",$tab,$error)

Rien ne marche. J'ai le resultat suivant à chaque fois

Je me demande, si peux lancer des binaires dans le cgi-bin

Pour les scripts perl et python ca marche

$tab = array()

et

$error = 1

Si quelqu'un à une solution, je suis preneur

Lien vers le commentaire
Partager sur d’autres sites

Tiens je me sens moins seul :whistling:

Il est possible que pdftotext doit forcément etre installer par OVH dans le répertoire Cgi-bin. Nos droits "admin" ne sont peut etre pas suffissant pour ça.

Lien vers le commentaire
Partager sur d’autres sites

J'ai trouvé pourquoi il est impossible de faire fonctionner PHPdig pour crawler les pdf

OVH ne peut pas faire fonctionner cette application Phpdig qui neccéssite un module externe (ghostscript, pdftotext)

Ces modules ne fonctionne pas chez OVH (d'après la hotline qui de toute façon a mis plus de 10 jours et 9 support mail pour me confirmer ceci)

Quelqu'un a une bonne adresse pour un hébergement qui pourrait faire ça ?

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...