Webmaster Hub: Moteur de recherche php avec indexation word, excel et pdf - Webmaster Hub

Aller au contenu

Page 1 sur 1
  • Vous ne pouvez pas commencer un sujet
  • Vous ne pouvez pas répondre à ce sujet

Moteur de recherche php avec indexation word, excel et pdf Noter : -----

#1 L'utilisateur est hors-ligne   MarvinLeRouge 

  • Groupe : Hubmaster
  • Messages : 771
  • Inscrit(e) : 22-novembre 04
  • Genre:Homme
  • Localisation:Toulon

Posté 09 janvier 2012 - 19:20

Salut,

Voilà, je suis sur un projet qui implique la création d'un moteur de recherche sur documents, et celui-ci devra indexer des documents word, excel, et pdf.
Certains ont-ils des retours d'expérience ou des conseils à ce sujet, svp ?

Merci
Lorsqu'un lapin rouge naît, on le nomme Marvin, en mémoire de Marvin 1er qui détruisit la ville de Zautamauxime. Puis on le bannit car les lapins rouges, ça porte malheur.
0

#2 L'utilisateur est hors-ligne   yuston 

  • Voir le blog
  • Groupe : Membre+
  • Messages : 589
  • Inscrit(e) : 07-octobre 04
  • Genre:Homme
  • Localisation:Lausanne

Posté 09 janvier 2012 - 20:04

Salut, en PHP/MySQL on pourrait faire un recherche fulltext après avoir indexé et nettoyé les documents. C'est pas très difficile à faire mais a comme désavantage d'être de moins en moins performant au fur et à mesure que le nombres de documents indexés augmente.

Sinon, il y a la solution Sphinx écrit en C++ mais qui fournit une API PHP pour exploiter le moteur : http://sphinxsearch.com/

Je n'ai pas utilisé Sphinx personnellement mais quand je me suis penché sur la réalisation d'un moteur de recherche, Sphinx est celui qui souvent considéré comme un des meilleurs dans les benchmark (rapidité, légèreté). Il est opensource en plus.

Sinon, je sais pas plus mais suis content si tu partages la solution définitive que tu vas adopter :)
Andersen Lau - Me retrouver sur Twitter
Pour les jeunes qui n'ont pas encore réussi le permis de conduire, faites une petite accélération (prioritairement en voiture!) sur Le-Permis.ch. A fond les pédales!
0

#3 L'utilisateur est hors-ligne   Dan 

  • Webmaster
  • Voir le blog
  • Voir la galerie
  • Groupe : Direction
  • Messages : 22 946
  • Inscrit(e) : 18-août 03
  • Genre:Homme
  • Localisation:St Anne, Alderney
  • Société:Webmaster Hub Ltd.

Posté 10 janvier 2012 - 09:29

Le Hub utilise Sphinx, avec une réactualisation de la base toutes les 10 minutes.
J'en suis très satisfait.
La théorie, c'est quand on sait tout et que rien ne fonctionne. La pratique, c'est quand tout fonctionne et que personne ne sait pourquoi.
Si la pratique et la théorie sont réunies, rien ne fonctionne et on ne sait pas pourquoi. - Albert Einstein -
Infogérance de serveurs dédiés OVH
0

#4 L'utilisateur est hors-ligne   MarvinLeRouge 

  • Groupe : Hubmaster
  • Messages : 771
  • Inscrit(e) : 22-novembre 04
  • Genre:Homme
  • Localisation:Toulon

Posté 10 janvier 2012 - 10:50

En revanche, ça n'a pas l'air fait pour indexer du doc, xls, pdf (ou alors j'ai raté un truc sur leur site).
Lorsqu'un lapin rouge naît, on le nomme Marvin, en mémoire de Marvin 1er qui détruisit la ville de Zautamauxime. Puis on le bannit car les lapins rouges, ça porte malheur.
0

#5 L'utilisateur est hors-ligne   SStephane 

  • Groupe : Fondateur
  • Messages : 460
  • Inscrit(e) : 06-février 09
  • Genre:Homme
  • Localisation:Grabels

Posté 10 janvier 2012 - 18:55

Mnogosearch => http://www.mnogosearch.org/
Il indexe avec un robot perl par contre il est très efficace.
_AT_Montpellier
L'héroïsme, c'est la seule manière de devenir célèbre quand on a pas de talent (l'homme aux initiales douteuses)
Venez tester votre niveau de compétence en PHP :-)
0

#6 L'utilisateur est hors-ligne   MarvinLeRouge 

  • Groupe : Hubmaster
  • Messages : 771
  • Inscrit(e) : 22-novembre 04
  • Genre:Homme
  • Localisation:Toulon

Posté 11 janvier 2012 - 11:05

Et c'est pas trop prise de tête à installer ? Je demande ça car j'avais lu quelque part que ça faisait très ... maison construite avec des graviers et sans mortier. :whistling:
Lorsqu'un lapin rouge naît, on le nomme Marvin, en mémoire de Marvin 1er qui détruisit la ville de Zautamauxime. Puis on le bannit car les lapins rouges, ça porte malheur.
0

#7 L'utilisateur est hors-ligne   SStephane 

  • Groupe : Fondateur
  • Messages : 460
  • Inscrit(e) : 06-février 09
  • Genre:Homme
  • Localisation:Grabels

Posté 12 janvier 2012 - 08:44

Pas vraiment, j'ai jamais eu à m'en plaindre, cela dit je m'en sers de moins en moins.
_AT_Montpellier
L'héroïsme, c'est la seule manière de devenir célèbre quand on a pas de talent (l'homme aux initiales douteuses)
Venez tester votre niveau de compétence en PHP :-)
0

#8 L'utilisateur est hors-ligne   MarvinLeRouge 

  • Groupe : Hubmaster
  • Messages : 771
  • Inscrit(e) : 22-novembre 04
  • Genre:Homme
  • Localisation:Toulon

Posté 12 janvier 2012 - 11:57

Je regardais du côté des solutions de type pdftotext, et les résultats obtenus sont très différents en termes de qualité d'un script à l'autre, mais l'exe de xpdf donne sur mon lot de test des résultats beaucoup plus crédibles que les autres (mais ça suppose une machine sur laquelle on puisse installer et lancer un programme externe au script).
Lorsqu'un lapin rouge naît, on le nomme Marvin, en mémoire de Marvin 1er qui détruisit la ville de Zautamauxime. Puis on le bannit car les lapins rouges, ça porte malheur.
0

Partager ce sujet :


Page 1 sur 1
  • Vous ne pouvez pas commencer un sujet
  • Vous ne pouvez pas répondre à ce sujet

1 utilisateur(s) en train de lire ce sujet
0 membre(s), 1 invité(s), 0 utilisateur(s) anonyme(s)