Blog

J'ai fini de développer le coeur du composant de résumé automatique : le lien avec les données, et le moteur de résumé en lui-même. Il ne reste plus qu'à développer le module Joomla! permettant d'afficher tout ça.


Voilà un avant-goût de ce que vous pourrez voir (résumé des 24 dernières heures d'actu) :


Après deux jours de débat, le Sénat a adopté dans la nuit le premier article du projet de loi Taubira.
Corée du Nord : Séoul et Washington relèvent leur niveau de surveillance militaire.
L'épicentre du tremblement de terre se situe à un peu moins de 100 km au sud de Bouchehr, où se situe la seule centrale nucléaire iranienne.
Le directeur général de la banque genevoise Reyl et Cie, qui gére le compte en Suisse, non déclaré au fisc français, de Jérôme Cahuzac a été entendu à sa demande mardi à Genève par le procureur...
L'édition 2014 de son dictionnaire définit le "mariage" comme l'"acte solennel par lequel deux personnes de sexe différent, ou de même sexe, établissent entre eux une union...


On remarquera que ça fait un an que l'actu tourne autour des mêmes thèmes : le nucléaire et les tremblements de terre, le mariage pour tous, la Corée du Nord et depuis 6 mois, l'"AFFAIRE" Cahuzac. Bref, je me demande si mon outil est si utile que ça.

La qualité des résumé produits par le démonstrateur étant en dessous de ce que j'ai avec les outils que j'avais développés pour moi, en utilisant la même technique et en enlevant toute analyse linguistique, je me suis posé des questions. J'ai bien fait, une "coquille" s'est glissée dans le calcul des similarités entre phrases, qui est à la base de la construction du graphe des phrases. Ce graphe permet d'établir la popularité des phrases, et d'extraire les plus populaires. La coquille est corrigée, et les résultats devraient suivre... (enfin j'espère)

Maintenant que l'outil "Les mots de l'actu" est quasiment terminé (il ne reste plus qu'à réussir à le lancer automatiquement à intervalles réguliers par cron) je vais m'atteler à un nouveau composant.

Ce nouveau composant sera chargé de résumer automatiquement l'actualité quotidienne. Les résumés seront générés par extraction, c'est-à-dire par sélection des phrases jugées les meilleures à être intégrées à un résumé. La pertinence de l'extraction d'une phrase est évaluée selon deux critères : sa centralité vis-à-vis de l'information quotidienne (elle doit véhiculer les informations les plus importantes) et la diversité qu'elle procurera au résumé (un résumé doit éviter au maximum toute information redondante).

Yapluka !

La première étape est franchie, j'ai développé un analyseur de fils rss et terminé les modules d'analyse statistique. Il ne reste plus qu'à attendre que les données soient suffisantes pour obtenir des résultats. L'analyseur est paramétré pour comparer les actualités à la une des dernières 24 heures de plusieurs fils d'actualité avec les actualités à la une des deux semaines qui les ont précédées. Il ne reste plus qu'à développer un module de nuage de mots pour Joomla ! et à espérer que tout ça roule tout seul. Un petit avant-goût avec les mots les plus fréquents de l'actualité des huit dernières heures :

  • Trois
  • affaire
  • ont
  • ans
  • France
  • Cahuzac
  • Français
  • Facebook
  • monte
  • Hollande
  • mort
  • avril
  • 2
  • grippe
  • Nouvelle
  • Pakistan
  • Elysée
  • Alexandre
  • agence

La pondération des fréquences de ces mots, que j'effectue(rai car les données ne sont pas encore là) avec une simple mesure tf.idf (G. Salton, 1983) sur les données de la quinzaine précédente, permettra de faire descendre certains mots trop fréquents. Je pense notamment, en voyant cette liste, à "Elysée" (quoiqu'avec l'affaire Cahuzac...), "agence", ou encore "ont" (qui bizarrement n'est pas dans ma stopliste).


A terme, je pense développer un résumeur automatique de l'actualité des 24 dernières heures, qui utilise les sorties de l'analyseur de fil rss.

Le codage des méthodes de résumé automatique est terminé. Il ne reste "plus qu'à" développer le composant Joomla ! qui les utilise. Ce sera peut-être la plus fastidieuse des étapes...

Je commence le développement d'un petit outil sans prétention, qui analysera les flux rss de différentes sources d'informations afin de faire ressortir les mots qui caractérisent le mieux l'actualité du jour. Compte tenu des moyens que j'ai à disposition (serveur mutualisé), l'outil en question se limitera à une analyse statistique des mots, sans se placer au niveau des termes. Une analyse terminologique permettrait évidemment de reconnaître des éléments tels que "prix à la consommation", "sage femme", et donc un rendu plus fin, mais son coût de traitement ne serait pas supportable dans le cadre de ce petit site.