
摘要
我们介绍了EventNarrative,这是一个从公开可用的开放世界知识图谱生成的知识图谱到文本的数据集。鉴于事件驱动的信息提取(IE)领域的最新进展,以及以往关于图谱到文本的研究仅集中在实体驱动的知识图谱上,本文重点关注以事件为中心的数据。然而,我们的数据生成系统仍然可以适应其他类型的知识图谱数据。现有的大规模图谱到文本数据集是非平行的,这意味着知识图谱与文本之间存在较大的脱节。而那些具有配对知识图谱和文本的数据集规模较小,且多为人工生成或在缺乏丰富本体的情况下生成,导致相应的图谱较为稀疏。此外,这些数据集中包含许多未链接的实体。EventNarrative由约23万个知识图谱及其对应的自然语言文本组成,其规模是当前最大的平行数据集的6倍。该数据集利用了丰富的本体论(ontology),所有知识图谱中的实体都已链接到文本中,并且我们的手动注释确认了其高质量的数据。我们的目标有两个方面:一是帮助在缺乏数据的事件中心研究领域取得新的突破;二是为研究人员提供一个定义明确、大规模的数据集,以便更好地评估现有的和未来的知识图谱到文本模型。我们还在EventNarrative上评估了两种类型的基线模型:一种是专门针对图谱到文本任务的模型,另一种是两个最先进的语言模型,先前的研究表明这些语言模型可以适应知识图谱到文本领域。