13 天前

一种面向突发性特征的文档年代判定方法

{Kjetil Nørvåg, Nattiya Kanhabua, Dimitrios Gunopulos, Dimitrios Kotzias, Theodoros Lappas, Dimitrios Kotsakos}
一种面向突发性特征的文档年代判定方法
摘要

大量主流应用,如时间检索、事件检测和趋势识别,均依赖于文本集合中每篇文档的时间戳信息。然而,在许多实际场景中,所需的时间戳要么无法获取,要么存在歧义。这一问题在大规模历史数字化文档库中尤为突出:由于数字化过程中可能出现时间戳损坏,或原始数据本身缺乏时间信息,导致时间戳不可用。本文研究了文档时间戳的近似推断任务,即文档定年(document dating)。我们提出了一种基于内容的定年方法,并引入了术语突现性(term burstiness)领域的最新研究成果,从而克服了以往方法的局限性,例如固定时间区间划分策略的僵化问题。通过在多个数据集上开展的广泛实验评估,我们验证了所提方法的有效性与优势,结果表明,该方法在文档定年任务中显著优于现有最先进方法。

一种面向突发性特征的文档年代判定方法 | 最新论文 | HyperAI超神经