HyperAIHyperAI
il y a 13 jours

Identification de fils d'information chronologiques et cohérents à l'aide de questions 5W1H et de relations temporelles

{Iadh Ounis, Graham McDonald, Hitarth Narvala}
Résumé

En raison du volume massif d’articles produits en ligne chaque jour, il est difficile pour les plateformes numériques (par exemple, les agences de presse) de présenter aux utilisateurs des informations sur un événement, une activité ou une discussion sous une forme facile à consommer. Par conséquent, il existe un besoin croissant de méthodes automatiques permettant d’extraire, à partir de grandes collections non structurées de documents, des informations liées et ordonnées chronologiquement (c’est-à-dire des fils d’information). Dans ce travail, nous proposons une nouvelle approche non supervisée basée sur le regroupement hiérarchique agglomératif (HAC) pour générer des fils d’information chronologiques et cohérents au sein d’une collection. Contrairement aux tâches bien établies telles que la détection et le suivi de sujets ou le threading d’événements, qui se concentrent principalement sur le regroupement des informations autour de mots-clés et/ou d’entités importantes, notre approche identifie les fils d’information en s’appuyant sur les relations temporelles et sur une diversité d’informations relatives à un événement, à savoir : qui a fait quoi, pourquoi, où, quand et comment (les fameuses questions 5W1H). Plus précisément, notre méthode utilise une fonction de similarité personnalisée pour le HAC, en exploitant les réponses extraites aux questions 5W1H ainsi qu’un facteur d’atténuation temporelle entre les documents. Nous évaluons notre approche de threading d’information HAC 5W1H sur deux grandes collections annotées par des experts d’articles de presse, à savoir NewSHead et Multi-News (respectivement plus de 112 000 et 32 000 articles). Nos expérimentations montrent que l’approche HAC 5W1H améliore de manière significative le nombre et la qualité des fils générés par rapport aux méthodes de pointe existantes dans la littérature : par exemple, une augmentation de 100,98 % du nombre de fils et une amélioration de +213,39 % en termes d’information mutuelle normalisée par rapport au meilleur modèle de référence sur la collection plus grande NewSHead. Nous avons également mené une étude utilisateur qui démontre que notre approche HAC 5W1H est nettement préférée (p < 0,05) par les utilisateurs en termes de cohérence, de diversité et de correction chronologique par rapport aux méthodes de pointe existantes.