Le résumé automatique : une présentation générale

I. Généralités

Le résumé automatique est une des premières applications de traitement automatique du langage (TAL) à avoir vu le jour, avec la traduction automatique. Il s'agit pour un système de condenser un texte en entrée en utilisant des techniques variées. Un résumé automatique peut être créé de deux manières différentes :

  • par extraction : on va sélectionner dans les tetes d'origine les phrases les plus pertinentes à intégrer dans un résumé ;
  • par génération : on va sélectionner des informations issues des textes, puis générer un nouveau texte à partir de ces informations.

Evidemment, la génération est bien plus proche du raisonnement humain que l'extraction. Cependant, le cerveau humain étant très complexe, calquer ce raisonnement est un défi énorme, qui peut se rapprocher du domaine de l'IA forte. Un système fonctionnant par génération doit en effet : trouver comment modéliser des informations qui peuvent être très complexes, réussir à les extraire malgré les fortes disparités d'expression de ces informations dans les textes - on peut paraphraser quasiment à l'infini - puis recréer un texte cohérent à partir des informations extraites des textes.

C'est pour cela que la recherche s'est très majoritairement et très rapidement (sauf sur certaines exceptions, par exemple quand on cherche à résumer des textes d'un domaine et dans un format bien définis) orientée vers le premier type de méthodes : les méthodes extractives.