Résumer un texte par extraction, c'est réussir à trouver dans ce texte des phrases qui, mises ensemble, génèrent un résumé qui à la fois retient l'essentiel et capte un maximum de cet essentiel. C'est ce qu'on appelle le le compromis centralité/diversité. Evidemment, le résumé doit valider des contraintes, souvent en nombre de mots, ce qui complexifie le problème. Alors, une fois qu'on a réussi à évaluer la centralité, donc le fait qu'une phrase véhicule des informations essentielles, comment faire pour maximiser la diversité ? Nous voyons ici la méthode MMR (Maximal Margin Relevance), définie par Golstein et Carbonell (1998).

Lire la suite : Maximal Margin Relevance

Les années 2000 (Erkan & Radev, 2004, Mihalcea, 2004) ont vu apparaître de nouvelles méthodes de résumé automatique, fondées sur l'analyse de graphes. Ces nouvelles méthodes utilisent un algorithme semblable à celui du PageRank, développé par l'Université de Stanford et utilisé alors par Google afin d'évaluer la popularité d'une page web au sein du graphe du Web.

Lire la suite : Approches à base de graphes

I. Généralités

Le résumé automatique est une des premières applications de traitement automatique du langage (TAL) à avoir vu le jour, avec la traduction automatique. Il s'agit pour un système de condenser un texte en entrée en utilisant des techniques variées. Un résumé automatique peut être créé de deux manières différentes :

  • par extraction : on va sélectionner dans les tetes d'origine les phrases les plus pertinentes à intégrer dans un résumé ;
  • par génération : on va sélectionner des informations issues des textes, puis générer un nouveau texte à partir de ces informations.

Evidemment, la génération est bien plus proche du raisonnement humain que l'extraction. Cependant, le cerveau humain étant très complexe, calquer ce raisonnement est un défi énorme, qui peut se rapprocher du domaine de l'IA forte. Un système fonctionnant par génération doit en effet : trouver comment modéliser des informations qui peuvent être très complexes, réussir à les extraire malgré les fortes disparités d'expression de ces informations dans les textes - on peut paraphraser quasiment à l'infini - puis recréer un texte cohérent à partir des informations extraites des textes.

Lire la suite : Le résumé automatique : une présentation générale