HyperAIHyperAI
il y a 2 mois

Croissance en ligne de la forêt narrative à partir de nouvelles brèves massives

Bang Liu; Di Niu; Kunfeng Lai; Linglong Kong; Yu Xu
Croissance en ligne de la forêt narrative à partir de nouvelles brèves massives
Résumé

Nous décrivons notre expérience de mise en œuvre d'un système d'organisation du contenu des actualités chez Tencent, capable de détecter des événements à partir de vastes flux d'informations brutes et d'évoluer les structures narratives des actualités en temps réel. Notre système réel présente des exigences distinctes par rapport aux études précédentes sur la détection et le suivi de sujets (TDT) et la génération de chronologies ou de graphes d'événements, en ce sens que nous devons 1) extraire avec précision et rapidité des événements distincts à partir de flux massifs de documents textuels longs couvrant une grande diversité de sujets et contenant des informations hautement redondantes, et 2) développer les structures narratives des événements en ligne, sans restructurer à plusieurs reprises les histoires déjà formées, afin de garantir une expérience visuelle cohérente pour l'utilisateur. Pour relever ces défis, nous proposons Story Forest, un ensemble de schémas en ligne qui clusterise automatiquement les documents en streaming en événements tout en reliant les événements connexes dans des arbres croissants pour raconter des histoires évoluant au fil du temps. Nous avons mené une évaluation approfondie basée sur 60 Go de données réelles provenant d'actualités chinoises, bien que nos idées ne soient pas liées à une langue spécifique et puissent être facilement étendues à d'autres langues grâce à des études détaillées sur l'expérience utilisateur pilote. Les résultats montrent la supériorité de Story Forest pour identifier précisément les événements et organiser le texte des actualités en une structure logique attrayante pour les lecteurs humains, comparativement à plusieurs cadres algorithmiques existants.