16 天前

基于网络社区检测的有效层级信息编织

{Iadh Ounis, Graham McDonald, Hitarth Narvala}
摘要

随着每天在线生成的信息量急剧增长(例如新闻文章),亟需发展自动化的技术手段,以在事件随时间演进过程中识别相关联的信息内容(即信息线程)。本文提出一种新颖的无监督方法——HINT(Hierarchical Information Thread Identification),用于识别具有内在一致性的层次化信息线程。这些线程能够帮助用户直观理解围绕某一事件或讨论所呈现的多样化、动态演进信息之间的层级关联。具体而言,HINT 采用基于网络社区检测的可扩展架构,通过分析文档之间的时序相关性以及对“5W1H”问题(即何人、何事、何地、何时、为何及如何)的回答,高效识别文档间的层次化关联关系。在 NewSHead 数据集上的实验结果表明,HINT 在所识别线程的质量方面显著优于现有最先进的方法。此外,我们还开展了一项用户研究,结果表明,与基于聚类的顺序线程相比,用户对本研究提出的基于网络的层次化线程表现出显著偏好(p < 0.05)。

基于网络社区检测的有效层级信息编织 | 最新论文 | HyperAI超神经