Maître de conférences en informatique, j'effectue mes recherches au LIASD et mes enseignements au département informatique de l'IUT de Montreuil - Université Paris 8.  J'effectue majoritairement mes recherches en traitement automatique du langage, en particulier en résumé automatique.

J'ai soutenu ma thèse, dirigée par Thierry Poibeau et intitulée "Contribution au résumé automatique multi-documents" le 12 juillet 2010 (mention très honorable). Manuscrit de la thèse (format pdf)

Vous trouverez sur ce site des articles que j'ai publiés, un démonstrateur de résumé automatique, une rubrique "Le résumé automatique pour les nuls", qui vise à faire comprendre à ceux qui le souhaitent des méthodes  qui concernent mon domaine de recherche ainsi que divers outils dédiés à l'accessibilité de l'information.

L'outil "Les mots de l'actu" (voir les descriptions de l'outil, de ses mises à jour ou de son développement) fournit sous forme d'un nuage de mots les mots les plus représentatifs de l'actualité des 24 dernières heures. Il fournit également un un aperçu et un lien vers les articles qui les représentent le mieux afin de proposer un point d'accès original aux actualités les plus importantes du jour.

 

Ce démonstrateur de résumé automatique utilise la méthode MMR, décrite dans l'excellent article de J. Goldstein et J. Carbonell, sans aucun traitement linguistique. Par conséquent, les résultats ne sont pas au niveau des résumeurs automatiques qui utilisent des ressources supplémentaires : étiquetage morpho-syntaxique, détection des entités nommées... mais peut donner un aperçu de ce que l'on peut faire actuellement avec des traitements simples.  La fonction de score utilisée ici est LexRank, décrite dans l'article de G. Erkan et D. R. Radev (2004).

Pour le moment, le démonstrateur ne gère que le français. Je n'ai pas encore ajouté les stop listes (les listes qui définissent les mots vides, trop fréquents pour être pertinents) pour d'autres langues, mais c'est la prochaine étape du développement, ce avec une détection automatique des langues pour lesquelles j'aurais ajouté des stop listes.

Vous pouvez modifier les paramètres de génération du résumé pour générer des résumés de documents d'un maximum de 25.000 caractères. La qualité des données en entrée est primordiale, n'entrez si possible que des données encodées en utf-8, et des textes dont les phrases sont bien séparées par les caractères ( . ! ? )