Maître de conférences en informatique, j'effectue mes recherches au LIASD et mes enseignements au département informatique de l'IUT de Montreuil - Université Paris 8.  J'effectue majoritairement mes recherches en traitement automatique du langage, en particulier en résumé automatique.

J'ai soutenu ma thèse, dirigée par Thierry Poibeau et intitulée "Contribution au résumé automatique multi-documents" le 12 juillet 2010 (mention très honorable). Manuscrit de la thèse (format pdf)

Vous trouverez sur ce site des articles que j'ai publiés, un démonstrateur de résumé automatique, une rubrique "Le résumé automatique pour les nuls", qui vise à faire comprendre à ceux qui le souhaitent des méthodes  qui concernent mon domaine de recherche ainsi que divers outils dédiés à l'accessibilité de l'information.

L'outil "Les mots de l'actu" (voir les descriptions de l'outil, de ses mises à jour ou de son développement) fournit sous forme d'un nuage de mots les mots les plus représentatifs de l'actualité des 24 dernières heures. Il fournit également un un aperçu et un lien vers les articles qui les représentent le mieux afin de proposer un point d'accès original aux actualités les plus importantes du jour.

 

Index de l'article

I. Généralités

Le résumé automatique est une des premières applications de traitement automatique du langage (TAL) à avoir vu le jour, avec la traduction automatique. Il s'agit pour un système de condenser un texte en entrée en utilisant des techniques variées. Un résumé automatique peut être créé de deux manières différentes :

  • par extraction : on va sélectionner dans les tetes d'origine les phrases les plus pertinentes à intégrer dans un résumé ;
  • par génération : on va sélectionner des informations issues des textes, puis générer un nouveau texte à partir de ces informations.

Evidemment, la génération est bien plus proche du raisonnement humain que l'extraction. Cependant, le cerveau humain étant très complexe, calquer ce raisonnement est un défi énorme, qui peut se rapprocher du domaine de l'IA forte. Un système fonctionnant par génération doit en effet : trouver comment modéliser des informations qui peuvent être très complexes, réussir à les extraire malgré les fortes disparités d'expression de ces informations dans les textes - on peut paraphraser quasiment à l'infini - puis recréer un texte cohérent à partir des informations extraites des textes.

C'est pour cela que la recherche s'est très majoritairement et très rapidement (sauf sur certaines exceptions, par exemple quand on cherche à résumer des textes d'un domaine et dans un format bien définis) orientée vers le premier type de méthodes : les méthodes extractives.