II. Deux grandes familles de résumé par extraction - Page 2

II. Deux grandes familles de résumé par extraction

Dans le domaine du résumé par extraction, les possibilités sont très vastes. Dès les début du résumé automatique, deux grandes familles d'approches vont émerger : les approches symboliques et les approches statistiques.

Luhn (1958) va proposer un système où les phrases sont extraites selon un score qui dépend de la fréquence de ses mots dans les textes d'origine. Il part de l'hypothèse que l'importance d'un mot peut être déduite de sa fréquence, et que l'importance d'une phrase peut être déduite de la fréquence de ses mots.

Baxendale (1959) va privilégier les phrases qui apparaissent à des positions bien définies dans les textes d'origine. En effet, certains types de documents utilisent une rhétorique immuable qui permet de déterminer l'importance d'une phrase selon sa position. C'est notamment le cas des dépêches et articles de presse, dans lesquels les phrases importantes se trouvent dans l'accroche, soit dans les premières positions.

Edmundson (1969) se concentre sur la présence de certains mots clés ; dans des documents scientifiques, par exemple, les phrases introduites par "En conclusion" peuvent être considérées comme essentielles.

Les approches proposées par les deux derniers scientifiques cités sont qualifiées de "symboliques". En effet, elles s'attachent aux symboles (les mots eux-mêmes, ou la position d'une phrase) pour juger l'importance d'une phrase, par opposition aux approches statistiques (ici, nous avons pris l'exemple de Luhn), qui s'attachent aux fréquences.

Les indices décrits ici sont encore utilisés de nos jours par de nombreux systèmes de résumé automatique. Les différences tiennent à la façon dont on va d'une part utiliser ces informations pour extraire les phrases : les algorithmes d'extraction, et par la façon dont on gère les textes : considère-t-on des mots bruts ou regroupe-t-on les mots dans de grandes familles sémantiques ? Comment résout-on les références anaphoriques etc...