Maître de conférences en informatique, j'effectue mes recherches au LIASD et mes enseignements au département informatique de l'IUT de Montreuil - Université Paris 8.  J'effectue majoritairement mes recherches en traitement automatique du langage, en particulier en résumé automatique.

J'ai soutenu ma thèse, dirigée par Thierry Poibeau et intitulée "Contribution au résumé automatique multi-documents" le 12 juillet 2010 (mention très honorable). Manuscrit de la thèse (format pdf)

Vous trouverez sur ce site des articles que j'ai publiés, un démonstrateur de résumé automatique, une rubrique "Le résumé automatique pour les nuls", qui vise à faire comprendre à ceux qui le souhaitent des méthodes  qui concernent mon domaine de recherche ainsi que divers outils dédiés à l'accessibilité de l'information.

L'outil "Les mots de l'actu" (voir les descriptions de l'outil, de ses mises à jour ou de son développement) fournit sous forme d'un nuage de mots les mots les plus représentatifs de l'actualité des 24 dernières heures. Il fournit également un un aperçu et un lien vers les articles qui les représentent le mieux afin de proposer un point d'accès original aux actualités les plus importantes du jour.

 

La première étape est franchie, j'ai développé un analyseur de fils rss et terminé les modules d'analyse statistique. Il ne reste plus qu'à attendre que les données soient suffisantes pour obtenir des résultats. L'analyseur est paramétré pour comparer les actualités à la une des dernières 24 heures de plusieurs fils d'actualité avec les actualités à la une des deux semaines qui les ont précédées. Il ne reste plus qu'à développer un module de nuage de mots pour Joomla ! et à espérer que tout ça roule tout seul. Un petit avant-goût avec les mots les plus fréquents de l'actualité des huit dernières heures :

  • Trois
  • affaire
  • ont
  • ans
  • France
  • Cahuzac
  • Français
  • Facebook
  • monte
  • Hollande
  • mort
  • avril
  • 2
  • grippe
  • Nouvelle
  • Pakistan
  • Elysée
  • Alexandre
  • agence

La pondération des fréquences de ces mots, que j'effectue(rai car les données ne sont pas encore là) avec une simple mesure tf.idf (G. Salton, 1983) sur les données de la quinzaine précédente, permettra de faire descendre certains mots trop fréquents. Je pense notamment, en voyant cette liste, à "Elysée" (quoiqu'avec l'affaire Cahuzac...), "agence", ou encore "ont" (qui bizarrement n'est pas dans ma stopliste).


A terme, je pense développer un résumeur automatique de l'actualité des 24 dernières heures, qui utilise les sorties de l'analyseur de fil rss.