C'était encore plus dommage avant qu'ils changent les serveurs MySQL (au bout de plus de 10 minutes d'attente, on avait un time out).
Je ne sais pas si tu es allé voir mes notes techniques, je n'ai pas vraiment expliqué comment ça marche, c'étaient plutôt des notes pour moi, avant l'implémentation, mais on peut y trouver quelques principes.
Pour simplifier, le modèle est ce que j'appelle, dans ma thèse, un Réseau de Concepts, qui est une sorte de réseau de neurones entièrement connecté, mais dont les noeuds représentent des information symboliques (si tu veux en voir un exemple, jette un oeil aux noeuds du Réseau de Concepts d'ECTOR.
En gros, l'idée c'est de propager des activations parmi un réseau composé de tokens, de noms de personnes, d'expressions, puis de reconstruire une phrase à partir des noeuds les plus activés.
Les liens entre les noeuds sont pondérés par un indice d'inclusion, qui ressemble en gros à une probabilité conditionnelle (sachant qu'on a un mot, quelle est la probabilité qu'il soit suivi de cet autre mot?), et que j'ai appelé l'influence d'un noeud sur un autre.
L'originalité, c'est aussi la construction d'expressions (ou concepts) à partir des tokens. Quand, par exemple, on rencontre souvent "réseau" puis "de" puis "neurones", on peut penser à construire le noeud "réseau de neurones", afin d'éviter de construire des phrases contenant "réseau", suivi de "de", suivi de quoi que ce soit dont la probabilité de venir après ce mot soit importante, comme "manger"...
Voilà voilà. A l'origine, l'idée du Réseau de Concepts vient du Slipnet de Copycat (une thèse de Melanie Mitchell, dont le directeur était Douglas Hofstadter).
Toujours intéressé par une discussion plus poussée.
J'espère que je ne suis pas trop technique (je n'ai pas trop l'habitude de vulgariser, mais ça tombe bien: je préfère le faire en français).
Sinon, tu peux toujours aller voir ce que j'ai écrit sur le CraoWiki à propos d'ECTOR, ou bien dans mon blog.
Edition: je n'ai pas répondu à la question sur ce que j'ai fait pour en arriver là. J'ai fait une thèse sur la reconnaissance automatique des champs dans les références bibliographiques à la fin des articles scientifiques. Mais j'imagine que tu as déjà dû t'en rendre en compte si tu as suivi les liens précédents (et exploré un peu).
Au plaisir.