Je commence le développement d'un petit outil sans prétention, qui analysera les flux rss de différentes sources d'informations afin de faire ressortir les mots qui caractérisent le mieux l'actualité du jour. Compte tenu des moyens que j'ai à disposition (serveur mutualisé), l'outil en question se limitera à une analyse statistique des mots, sans se placer au niveau des termes. Une analyse terminologique permettrait évidemment de reconnaître des éléments tels que "prix à la consommation", "sage femme", et donc un rendu plus fin, mais son coût de traitement ne serait pas supportable dans le cadre de ce petit site.

Ca y est, le développement de la première version de mon démonstrateur de résumé automatique est en ligne ! Vous pouvez le tester sur la page "démonstrateur". Amusez-vous bien (si tant est que cela est amusant)

Le codage des méthodes de résumé automatique est terminé. Il ne reste "plus qu'à" développer le composant Joomla ! qui les utilise. Ce sera peut-être la plus fastidieuse des étapes...

Pour inaugurer mon nouveau site web, je développe une interface web de résumé automatique. Celle-ci sera limitée en nombre de mots à résumer et les résumés qu'elle générera seront fondés sur l'approche MMR, décrite dans l'excellent article de J. Goldstein et J. Carbonell. Cette approche est moins gourmande en ressources que l'approche que j'ai développée durant ma thèse. Tout traitement linguistique sera exclu, ce qui aura pour conséquence de produire des résumés bien moins cohérents que ce que l'on peut faire actuellement avec un minimum de traitements (étiquetage des catégories morpho-syntaxiques, étiquetage et typage des entités nommées, normalisation des dates...) Je compte ensuite proposer des interfaces de résumés spécifiques à certains types de documents, et prendre en charge des fichiers pré-annotés par les utilisateurs dans un format spécifique.