11 天前

基于5W1H问题与时间关系识别时间上有序且连贯的信息线索

{Iadh Ounis, Graham McDonald, Hitarth Narvala}
摘要

由于每日在线生成的文献数量庞大,新闻机构等在线平台在向用户呈现事件、活动或讨论的相关信息时,难以将其组织成易于理解的结构化形式。因此,亟需发展自动化方法,从大规模非结构化文档集合中提取与事件相关且按时间顺序排列的信息线索(即信息线程)。本文提出一种新颖的无监督分层聚合聚类(Hierarchical Agglomerative Clustering, HAC)信息线程化方法,用于在文档集合中生成时间有序且语义连贯的信息线程。与以往聚焦于关键词和/或关键实体进行分组的事件检测与追踪(topic detection and tracking)或事件线程化任务不同,本文所提出的方案基于事件的时间关系及多维度信息,即“谁(Who)做了什么(What)、为何(Why)、何地(Where)、何时(When)以及如何(How)”(即5W1H问题),识别信息线程。具体而言,本方法在HAC聚类过程中引入了一种定制化的相似度函数,该函数融合了从文档中提取的5W1H问题答案,并结合文档间的时间衰减机制,以更准确地捕捉事件发展的时间脉络与语义关联。我们在两个大规模专家标注的新闻文章数据集——NewSHead(超过11.2万篇)和Multi-News(超过3.2万篇)上对所提出的HAC 5W1H信息线程化方法进行了评估。实验结果表明,相较于现有文献中的最先进方法,本方法在生成线程的数量与质量方面均有显著提升:在较大的NewSHead数据集上,所生成的线程数量比最佳基线方法高出100.98%,在标准化互信息(Normalized Mutual Information, NMI)指标上提升达213.39%。此外,我们还开展了一项用户研究,结果表明,与现有先进方法相比,用户对本方法生成的线程在连贯性、多样性及时间顺序正确性方面具有显著更高的偏好(p < 0.05),验证了该方法在实际应用中的有效性与用户体验优势。

基于5W1H问题与时间关系识别时间上有序且连贯的信息线索 | 最新论文 | HyperAI超神经