III. Centralité/diversité  - Page 3

 III. Centralité/Diversité

Sélectionner les phrases les plus pertinentes est nécessaire, mais n'est pas suffisant. Prenons le cas d'une méthode de résumé statistique le plus simple possible : elle élimine les mots vides (tous les mots extrêmement fréquents qui constituent la base d'une langue mais qui ne contribuent pas ou peu au sens), et considère le score d'une phrase comme la somme des fréquences de ces mots.

Ce type d'approche est valable car elle fait l'hypothèse (confirmée) que les mots les plus importants sont les plus fréquents. Cependant, une telle approche a de très fortes chances, si on limite le résumé à deux phrases seulement, de sélectionner deux phrases quasiment identiques; en effet, elles seraient composées des mots les plus fréquents.

Or, un résumé doit être le moins redondant possible, et donc maximiser la "diversité". Si l'on considère que sélectionner les phrases les plus pertinentes revient à maximiser la "centralité", construire un résumé consiste à résoudre le compromis "centralité/diversité". A suivre évidemment...