"Les mots de l'actu" est un module que j'ai pensé, développé, et intégré au site. Il consiste en une analyse des fils rss "à la une" de diverses sources d'information. Je me suis appuyé sur magpierss, un très bon parser rss en php afin de décoder les fils rss.
"Les mots de l'actu" procède ensuite à une analyse statistique très simple des mots contenus dans les titres et les descriptions des actualités disponibles. Je parle d'analyse simple car les moyens à disposition avec l'hébergement mutualisé du site ne permettent pas de procéder à des tâches complexes, telles que de l'analyse terminologique ou de l'étiquetage morpho-syntaxique. Seuls les mots simples sont donc considérés lors de l'analyse statistiques, et non les mots composés fréquents, comme "erreur judiciaire" ou encore "abominable homme des neiges".
Les titres et descriptions des articles sont sauvegardés pendant deux semaines. Ces deux semaines d'actualités permettent d'avoir suffisamment de données afin d'extraire les mots les plus représentatifs de l'actualité des 24 dernières heures. Des mesures comme okapi (Robertson, Sparck-Jones, 1976) ou le tf.idf (G. Salton, 1983) -- utilisé ici -- permettent d'évaluer la pertinence d'un mot dans un document étant donné un contexte.
Les 20 mots les plus représentatifs de l'actualité du jour sont ensuite affichés à l'utilisateur sous la forme d'un nuage de mots.
Des extensions sont prévues pour ce module, et seront implémentées rapidement. L'objectif est de fournir non pas un résumé indicatif de l'actualité à un lecteur, mais un point d'accès à l'information essentielle.