Le résumé automatique : une présentation générale

I. Généralités

Le résumé automatique est une des premières applications de traitement automatique du langage (TAL) à avoir vu le jour, avec la traduction automatique. Il s'agit pour un système de condenser un texte en entrée en utilisant des techniques variées. Un résumé automatique peut être créé de deux manières différentes :

  • par extraction : on va sélectionner dans les tetes d'origine les phrases les plus pertinentes à intégrer dans un résumé ;
  • par génération : on va sélectionner des informations issues des textes, puis générer un nouveau texte à partir de ces informations.

Evidemment, la génération est bien plus proche du raisonnement humain que l'extraction. Cependant, le cerveau humain étant très complexe, calquer ce raisonnement est un défi énorme, qui peut se rapprocher du domaine de l'IA forte. Un système fonctionnant par génération doit en effet : trouver comment modéliser des informations qui peuvent être très complexes, réussir à les extraire malgré les fortes disparités d'expression de ces informations dans les textes - on peut paraphraser quasiment à l'infini - puis recréer un texte cohérent à partir des informations extraites des textes.

C'est pour cela que la recherche s'est très majoritairement et très rapidement (sauf sur certaines exceptions, par exemple quand on cherche à résumer des textes d'un domaine et dans un format bien définis) orientée vers le premier type de méthodes : les méthodes extractives.


II. Deux grandes familles de résumé par extraction

Dans le domaine du résumé par extraction, les possibilités sont très vastes. Dès les début du résumé automatique, deux grandes familles d'approches vont émerger : les approches symboliques et les approches statistiques.

Luhn (1958) va proposer un système où les phrases sont extraites selon un score qui dépend de la fréquence de ses mots dans les textes d'origine. Il part de l'hypothèse que l'importance d'un mot peut être déduite de sa fréquence, et que l'importance d'une phrase peut être déduite de la fréquence de ses mots.

Baxendale (1959) va privilégier les phrases qui apparaissent à des positions bien définies dans les textes d'origine. En effet, certains types de documents utilisent une rhétorique immuable qui permet de déterminer l'importance d'une phrase selon sa position. C'est notamment le cas des dépêches et articles de presse, dans lesquels les phrases importantes se trouvent dans l'accroche, soit dans les premières positions.

Edmundson (1969) se concentre sur la présence de certains mots clés ; dans des documents scientifiques, par exemple, les phrases introduites par "En conclusion" peuvent être considérées comme essentielles.

Les approches proposées par les deux derniers scientifiques cités sont qualifiées de "symboliques". En effet, elles s'attachent aux symboles (les mots eux-mêmes, ou la position d'une phrase) pour juger l'importance d'une phrase, par opposition aux approches statistiques (ici, nous avons pris l'exemple de Luhn), qui s'attachent aux fréquences.

Les indices décrits ici sont encore utilisés de nos jours par de nombreux systèmes de résumé automatique. Les différences tiennent à la façon dont on va d'une part utiliser ces informations pour extraire les phrases : les algorithmes d'extraction, et par la façon dont on gère les textes : considère-t-on des mots bruts ou regroupe-t-on les mots dans de grandes familles sémantiques ? Comment résout-on les références anaphoriques etc...


 III. Centralité/Diversité

Sélectionner les phrases les plus pertinentes est nécessaire, mais n'est pas suffisant. Prenons le cas d'une méthode de résumé statistique le plus simple possible : elle élimine les mots vides (tous les mots extrêmement fréquents qui constituent la base d'une langue mais qui ne contribuent pas ou peu au sens), et considère le score d'une phrase comme la somme des fréquences de ces mots.

Ce type d'approche est valable car elle fait l'hypothèse (confirmée) que les mots les plus importants sont les plus fréquents. Cependant, une telle approche a de très fortes chances, si on limite le résumé à deux phrases seulement, de sélectionner deux phrases quasiment identiques; en effet, elles seraient composées des mots les plus fréquents.

Or, un résumé doit être le moins redondant possible, et donc maximiser la "diversité". Si l'on considère que sélectionner les phrases les plus pertinentes revient à maximiser la "centralité", construire un résumé consiste à résoudre le compromis "centralité/diversité". A suivre évidemment...