
摘要
我们描述了在腾讯实施新闻内容组织系统的经验,该系统能够从大量突发新闻流中发现事件,并以在线方式演进新闻故事结构。我们的实际系统与以往关于主题检测与跟踪(TDT)以及事件时间线或图生成的研究有着不同的需求,具体表现在:1)需要准确且迅速地从覆盖广泛主题且包含高度冗余信息的海量长文本文档中提取可区分的事件;2)必须以在线方式开发事件故事的结构,而不反复重构已形成的故事情节,以确保用户观看体验的一致性。为了解决这些挑战,我们提出了“故事森林”(Story Forest),这是一套自动将流式文档聚类为事件并连接相关事件到不断增长的树状结构中以讲述演变故事的在线方案。我们基于60GB的真实中文新闻数据进行了广泛的评估,尽管我们的方法并不依赖特定语言,可以轻松扩展到其他语言,并通过详细的用户体验试点研究进行了验证。结果表明,“故事森林”在准确识别事件并将新闻文本组织成对人类读者具有吸引力的逻辑结构方面,优于多种现有的算法框架。