11 天前

DWIE:面向多任务文档级信息抽取的实体中心数据集

Klim Zaporojets, Johannes Deleu, Chris Develder, Thomas Demeester
DWIE:面向多任务文档级信息抽取的实体中心数据集
摘要

本文介绍了DWIE(“德国之声信息抽取语料库”),这是一个新构建的多任务数据集,整合了四大核心信息抽取(Information Extraction, IE)标注子任务:(i)命名实体识别(Named Entity Recognition, NER),(ii)共指消解(Coreference Resolution),(iii)关系抽取(Relation Extraction, RE),以及(iv)实体链接(Entity Linking)。DWIE被设计为以实体为中心的数据集,旨在从整篇文档的层面描述概念实体之间的交互关系及其属性特征。这与当前主流的基于提及(mention-driven)的方法形成鲜明对比——后者通常从单个句子中检测并分类命名实体提及开始。此外,在构建与评估基于DWIE的IE模型时,本文提出了两个主要挑战。首先,若在以实体为中心的DWIE数据集上沿用传统的基于提及级别的评估指标来衡量NER与RE任务的表现,可能导致评估结果过度受频繁出现实体的影响,从而掩盖对低频实体的识别性能。为此,本文提出一种新的基于实体驱动的评估指标,该指标综合考虑了每个预测实体与真实实体所包含的提及数量,从而更公平地反映模型在不同实体上的整体表现。其次,文档级多任务标注要求模型在不同文档片段中的实体提及之间,以及不同任务之间,实现信息的有效传递与共享,这在联合学习(joint learning)框架下尤为关键。为实现这一目标,本文提出在文档级提及跨度(mention spans)之间引入基于图的神经消息传递(graph-based neural message passing)机制,以建模跨文档区域和跨任务的复杂依赖关系。实验结果表明,将神经图传播机制引入联合模型后,F1分数最高可提升5.5个百分点。这一结果充分展示了DWIE在推动图神经网络在多任务信息抽取中用于表示学习方面的研究潜力。本文所提出的DWIE数据集已公开发布,访问地址为:https://github.com/klimzaporojets/DWIE。

DWIE:面向多任务文档级信息抽取的实体中心数据集 | 最新论文 | HyperAI超神经