La première étape est franchie, j'ai développé un analyseur de fils rss et terminé les modules d'analyse statistique. Il ne reste plus qu'à attendre que les données soient suffisantes pour obtenir des résultats. L'analyseur est paramétré pour comparer les actualités à la une des dernières 24 heures de plusieurs fils d'actualité avec les actualités à la une des deux semaines qui les ont précédées. Il ne reste plus qu'à développer un module de nuage de mots pour Joomla ! et à espérer que tout ça roule tout seul. Un petit avant-goût avec les mots les plus fréquents de l'actualité des huit dernières heures :

  • Trois
  • affaire
  • ont
  • ans
  • France
  • Cahuzac
  • Français
  • Facebook
  • monte
  • Hollande
  • mort
  • avril
  • 2
  • grippe
  • Nouvelle
  • Pakistan
  • Elysée
  • Alexandre
  • agence

La pondération des fréquences de ces mots, que j'effectue(rai car les données ne sont pas encore là) avec une simple mesure tf.idf (G. Salton, 1983) sur les données de la quinzaine précédente, permettra de faire descendre certains mots trop fréquents. Je pense notamment, en voyant cette liste, à "Elysée" (quoiqu'avec l'affaire Cahuzac...), "agence", ou encore "ont" (qui bizarrement n'est pas dans ma stopliste).


A terme, je pense développer un résumeur automatique de l'actualité des 24 dernières heures, qui utilise les sorties de l'analyseur de fil rss.