Maître de conférences en informatique, j'effectue mes recherches au LIASD et mes enseignements au département informatique de l'IUT de Montreuil - Université Paris 8.  J'effectue majoritairement mes recherches en traitement automatique du langage, en particulier en résumé automatique.

J'ai soutenu ma thèse, dirigée par Thierry Poibeau et intitulée "Contribution au résumé automatique multi-documents" le 12 juillet 2010 (mention très honorable). Manuscrit de la thèse (format pdf)

Vous trouverez sur ce site des articles que j'ai publiés, un démonstrateur de résumé automatique, une rubrique "Le résumé automatique pour les nuls", qui vise à faire comprendre à ceux qui le souhaitent des méthodes  qui concernent mon domaine de recherche ainsi que divers outils dédiés à l'accessibilité de l'information.

L'outil "Les mots de l'actu" (voir les descriptions de l'outil, de ses mises à jour ou de son développement) fournit sous forme d'un nuage de mots les mots les plus représentatifs de l'actualité des 24 dernières heures. Il fournit également un un aperçu et un lien vers les articles qui les représentent le mieux afin de proposer un point d'accès original aux actualités les plus importantes du jour.

 

"Les mots de l'actu" est un module que j'ai pensé, développé, et intégré au site. Il consiste en une analyse des fils rss "à la une" de diverses sources d'information. Je me suis appuyé sur magpierss, un très bon parser rss en php afin de décoder les fils rss.

"Les mots de l'actu" procède ensuite à une analyse statistique très simple des mots contenus dans les titres et les descriptions des actualités disponibles. Je parle d'analyse simple car les moyens à disposition avec l'hébergement mutualisé du site ne permettent pas de procéder à des tâches complexes, telles que de l'analyse terminologique ou de l'étiquetage morpho-syntaxique. Seuls les mots simples sont donc considérés lors de l'analyse statistiques, et non les mots composés fréquents, comme "erreur judiciaire" ou encore "abominable homme des neiges".

Les titres et descriptions des articles sont sauvegardés pendant deux semaines. Ces deux semaines d'actualités permettent d'avoir suffisamment de données afin d'extraire les mots les plus représentatifs de l'actualité des 24 dernières heures. Des mesures comme okapi (Robertson, Sparck-Jones, 1976) ou le tf.idf (G. Salton, 1983) -- utilisé ici -- permettent d'évaluer la pertinence d'un mot dans un document étant donné un contexte.

Les 20 mots les plus représentatifs de l'actualité du jour sont ensuite affichés à l'utilisateur sous la forme d'un nuage de mots.

Des extensions sont prévues pour ce module, et seront implémentées rapidement. L'objectif est de fournir non pas un résumé indicatif de l'actualité à un lecteur, mais un point d'accès à l'information essentielle.