
摘要
大多数现有的事件抽取(EE)方法仅在句子范围内提取事件参数。然而,这种句子级别的事件抽取方法难以应对来自新兴应用领域(如金融、立法、健康等)中不断增长的文档数量,因为在这些领域中,事件参数通常分散在不同的句子中,甚至同一文档中经常存在多个此类事件提及。为了解决这些挑战,我们提出了一种新的端到端模型——Doc2EDAG,该模型可以生成基于实体的有向无环图(DAG),从而有效地实现文档级别的事件抽取(DEE)。此外,我们重新定义了文档级别的事件抽取任务,采用了无触发词设计以简化文档级别的事件标注。为了验证Doc2EDAG的有效性,我们构建了一个大规模的真实世界数据集,该数据集包含具有上述挑战的中文金融公告。广泛的实验和全面的分析表明,Doc2EDAG在性能上优于现有最先进的方法。相关数据和代码可在https://github.com/dolphin-zs/Doc2EDAG 获取。