Regroupement de journaux ouvrards en ourdou à l’aide des titres
Cet article propose et évalue un nouvel algorithme permettant de regrouper automatiquement des actualités en ourdou provenant de différentes agences de presse. Cette tâche s'avère particulièrement difficile en raison du manque de bibliothèques de traitement du langage pour la langue ourdou. Le jeu de données expérimental des auteurs est constitué d'actualités provenant de prestigieuses maisons médiatiques pakistanaises, notamment Jang, BBC Urdu, Express, UrduPoint et Voice of America Urdu (VOA). L'algorithme proposé n'utilise que les titres pour effectuer le regroupement. Les auteurs soutiennent que les titres des articles offrent une synthèse concise du contenu, ce qui justifie leur choix d'utiliser uniquement ces éléments plutôt que les textes complets des articles. L'évaluation expérimentale montre des scores moyens micro et macro de précision respectivement égaux à 0,45 et 0,48 pour la détection d'actualités similaires à partir des titres.