
Maître de conférences en informatique, j'effectue mes recherches au LIASD et mes enseignements au département informatique de l'IUT de Montreuil - Université Paris 8. J'effectue majoritairement mes recherches en traitement automatique du langage, en particulier en résumé automatique.
J'ai soutenu ma thèse, dirigée par Thierry Poibeau et intitulée "Contribution au résumé automatique multi-documents" le 12 juillet 2010 (mention très honorable). Manuscrit de la thèse (format pdf)
Vous trouverez sur ce site des articles que j'ai publiés, un démonstrateur de résumé automatique, une rubrique "Le résumé automatique pour les nuls", qui vise à faire comprendre à ceux qui le souhaitent des méthodes qui concernent mon domaine de recherche ainsi que divers outils dédiés à l'accessibilité de l'information.
L'outil "Les mots de l'actu" (voir les descriptions de l'outil, de ses mises à jour ou de son développement) fournit sous forme d'un nuage de mots les mots les plus représentatifs de l'actualité des 24 dernières heures. Il fournit également un un aperçu et un lien vers les articles qui les représentent le mieux afin de proposer un point d'accès original aux actualités les plus importantes du jour.
Mise en ligne de la nouvelle version de l'outil de résumé automatique
Un nouvel outil de résumé automatique vient d'être mis en ligne. Développé en Java, open source et le plus modulaire possible, celui-ci permet de produire des résumés automatiques en utilisant différentes méthodes d'extraction de phrases ainsi que de modifier les composants essentiels de ces méthodes d'extraction.
Développé par Valentin Nyzam, doctorant au LIASD et recruté sur le projet ASADERA, cet outil a vocation à évoluer et sera bientôt porté en webservice. Il est disponible sur le portail github : dépôt Github de l'outil de résumé automatique.
Le résumé automatique : une présentation générale
I. Généralités
Le résumé automatique est une des premières applications de traitement automatique du langage (TAL) à avoir vu le jour, avec la traduction automatique. Il s'agit pour un système de condenser un texte en entrée en utilisant des techniques variées. Un résumé automatique peut être créé de deux manières différentes :
- par extraction : on va sélectionner dans les tetes d'origine les phrases les plus pertinentes à intégrer dans un résumé ;
- par génération : on va sélectionner des informations issues des textes, puis générer un nouveau texte à partir de ces informations.
Evidemment, la génération est bien plus proche du raisonnement humain que l'extraction. Cependant, le cerveau humain étant très complexe, calquer ce raisonnement est un défi énorme, qui peut se rapprocher du domaine de l'IA forte. Un système fonctionnant par génération doit en effet : trouver comment modéliser des informations qui peuvent être très complexes, réussir à les extraire malgré les fortes disparités d'expression de ces informations dans les textes - on peut paraphraser quasiment à l'infini - puis recréer un texte cohérent à partir des informations extraites des textes.
Lire la suite : Le résumé automatique : une présentation générale
Module "L'essentiel de l'actu"
Le module "L'essentiel de l'actu" est opérationnel. Ce module sélectionne, parmi les phrases du jours de fils rss d'actualités, les n plus représentatives. Ces phrases, assemblées, peuvent être considérées comme une certaine forme de résumé de l'actualité. En effet, du fait de la stratégie de sélection, ces phrases sont centrales et leur agglomération présente non pas une même information, la plus centrale, mais un maximum d'informations parmi les plus centrales, grâce à l'algorithme MMR (J. Goldstein et J. Carbonell, 1998) et la stratégie de score du "Centroïde" (Radev et al, 2004). Je décris ici l'algorithme de ce module.
Calcul du poids des mots
Tout d'abord, les flux rss sont analysés. Des pseudo-documents sont générés, qui contiennent l'actualité des 15 derniers jours par tranche de 24h. Le tf.idf (G. Salton, 1983) des mots contenus dans le pseudo-document le plus récent (celui des 24 dernières heures) est alors calculé. Cette mesure permet de scorer les mots selon leur fréquence d'apparition dans un document et l'inverse de leur probabilité d'apparition dans les autres documents. Un mot qui apparaît beaucoup dans un document donné mais peu dans les autres aura donc un poids fort dans ce document comparé à un mot qui apparaît beaucoup dans tous les documents ou encore à un mot qui apparaît peu dans ce document.
Calcul du résumé
Ici, j'ai choisi une technique simple au regard de LexRank, utilisée dans le démonstrateur de résumé automatique. En effet, la taille des fils rss peut vite devenir problématique pour un algorithme assez gourmand, qui nécessite de calculer les similarités entre chaque paire de phrases. Aujourd'hui par exemple, l'aggrégateur de fils rss recense 373 articles, soit environ 900 phrases, et donc un près 400.000 similarités à calculer. Si cela n'est pas effrayant en soi, surtout dans un environnement idéal (bon processeur, mémoire vive suffisante, et surtout programme compilé), une technique aussi gourmande ne convient pas à une application web avec un serveur dont les ressources sont limitées. J'ai donc choisi d'utiliser la technique du "Centroïde", bien moins gourmande, mais également moins efficace.
Génération d'un centroïde
Cette technique consiste à tout d'abord générer un centroïde. Le centroïde est un vecteur composé des mots les plus représentatifs des documents à résumer, et de leur poids. Ici, j'utilise comme poids le tf.idf, qui est également le moyen de sélection des mots. Dans l'idéal, il faudrait seuiller la sélection des mots selon leur tf.idf, c'est à dire ne sélectionner que les mots au-dessus d'un certain tfidf. Ce seuil est défini empiriquement, c'est-à-dire par l'expérience, en jugeant de la qualité des résumés produits en fonction du seuil. Cependant, à l'heure actuelle, cela fait moins d'une semaine que l'aggrégateur de flux fonctionne. Les valeurs seuils du tfidf valables aujourd'hui ne le seront sûrement plus demain. Par conséquent, en attendant que quinze jours aient passé, j'utilise un centroïde de taille fixe.
Scoring des phrases : centralité
Les phrases à résumer sont ensuite vectorisées, et une similarité est calculée entre chaque phrase et le centroïde. J'utilise ici la similarité cosinus, qui calcule le cosinus de l'angle entre deux vecteurs. Les phrases qui ont la similarité la plus élevée avec le centroïde sont donc les plus centrales vis-à-vis des documents à résumer. Cependant, ces phrases-ci ne peuvent pas constituer un résumé. En effet, leur sélection génèrerait un résumé extrêmement redondant. Il faut donc appliquer un "filtre" pour éviter la redondance.
Scoring des phrases : diversité
L'algorithme MMR permet de sélectionner des phrases en tenant compte à la fois de leur centralité, et de la diversité du résumé qu'elles génèrent. Le principe est simple : la première phrase sélectionnée est celle de score centroïde maximum. Par la suite, une phrase est sélectionnée à chaque étape, qui est de compromis maximum entre le score centroïde et la similarité avec la phrase la plus proche déjà sélectionnée.
Présentation des phrases
Une fois les phrases sélectionnées, celles-ci sont affichées. Pour les recontextualiser, mais également parce que c'est la loi, un survol d'une phrase affiche l'article dont elle est tirée, et la phrase est elle-même un lien vers cet article.
Correction de bug dans le démonstrateur de résumé automatique
La qualité des résumé produits par le démonstrateur étant en dessous de ce que j'ai avec les outils que j'avais développés pour moi, en utilisant la même technique et en enlevant toute analyse linguistique, je me suis posé des questions. J'ai bien fait, une "coquille" s'est glissée dans le calcul des similarités entre phrases, qui est à la base de la construction du graphe des phrases. Ce graphe permet d'établir la popularité des phrases, et d'extraire les plus populaires. La coquille est corrigée, et les résultats devraient suivre... (enfin j'espère)
-
Version bêta du module de résumé de l'actu
2013-04-10 17:05:47
J'ai terminé la version bêta du module de résumé de l'actualité. Ce module propose les phrases les plus représentatives de l'actualité du jour. Cependant, je ne conçois pas le résumé comme un simple...
-
Début du développement d'un outil de résumé automatique de l'actualité : dernière phase
2013-04-10 10:55:05
J'ai fini de développer le coeur du composant de résumé automatique : le lien avec les données, et le moteur de résumé en lui-même. Il ne reste plus qu'à développer le module Joomla! permettant...
-
Début du développement d'un outil de résumé automatique de l'actualité
2013-04-09 11:38:14
Maintenant que l'outil "Les mots de l'actu" est quasiment terminé (il ne reste plus qu'à réussir à le lancer automatiquement à intervalles réguliers par cron) je vais m'atteler à un nouveau...
-
Les mots de l'actu
2013-04-07 21:04:40
"Les mots de l'actu" est un module que j'ai pensé, développé, et intégré au site. Il consiste en une analyse des fils rss "à la une" de diverses sources d'information. Je me suis appuyé sur...
-
Développement de l'outil "Aujourd'hui dans l'actu"
2013-04-04 20:48:11
La première étape est franchie, j'ai développé un analyseur de fils rss et terminé les modules d'analyse statistique. Il ne reste plus qu'à attendre que les données soient suffisantes pour obtenir...
-
Début du développement d'un outil "Aujourd'hui dans l'actu"
2013-04-03 12:41:14
Je commence le développement d'un petit outil sans prétention, qui analysera les flux rss de différentes sources d'informations afin de faire ressortir les mots qui caractérisent le mieux...
-
Démonstrateur de résumé automatique en ligne !
2013-04-02 15:55:39
Ca y est, le développement de la première version de mon démonstrateur de résumé automatique est en ligne ! Vous pouvez le tester sur la page "démonstrateur". Amusez-vous bien (si tant est que cela...
-
Développement d'un démonstrateur de résumé automatique
2013-04-02 13:48:25
Le codage des méthodes de résumé automatique est terminé. Il ne reste "plus qu'à" développer le composant Joomla ! qui les utilise. Ce sera peut-être la plus fastidieuse des étapes...
-
Début du développement d'un démonstrateur de résumé automatique
2013-04-01 15:54:40
Pour inaugurer mon nouveau site web, je développe une interface web de résumé automatique. Celle-ci sera limitée en nombre de mots à résumer et les résumés qu'elle générera seront fondés sur...