Aller au contenu

Moteur de recherche php avec indexation word, excel et pdf


MarvinLeRouge

Sujets conseillés

Salut,

Voilà, je suis sur un projet qui implique la création d'un moteur de recherche sur documents, et celui-ci devra indexer des documents word, excel, et pdf.

Certains ont-ils des retours d'expérience ou des conseils à ce sujet, svp ?

Merci

Lien vers le commentaire
Partager sur d’autres sites

Salut, en PHP/MySQL on pourrait faire un recherche fulltext après avoir indexé et nettoyé les documents. C'est pas très difficile à faire mais a comme désavantage d'être de moins en moins performant au fur et à mesure que le nombres de documents indexés augmente.

Sinon, il y a la solution Sphinx écrit en C++ mais qui fournit une API PHP pour exploiter le moteur : http://sphinxsearch.com/

Je n'ai pas utilisé Sphinx personnellement mais quand je me suis penché sur la réalisation d'un moteur de recherche, Sphinx est celui qui souvent considéré comme un des meilleurs dans les benchmark (rapidité, légèreté). Il est opensource en plus.

Sinon, je sais pas plus mais suis content si tu partages la solution définitive que tu vas adopter :)

Lien vers le commentaire
Partager sur d’autres sites

Je regardais du côté des solutions de type pdftotext, et les résultats obtenus sont très différents en termes de qualité d'un script à l'autre, mais l'exe de xpdf donne sur mon lot de test des résultats beaucoup plus crédibles que les autres (mais ça suppose une machine sur laquelle on puisse installer et lancer un programme externe au script).

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...