2 个月前

REXEL:一种端到端的文档级关系抽取和实体链接模型

Nacime Bouziani; Shubhi Tyagi; Joseph Fisher; Jens Lehmann; Andrea Pierleoni
REXEL:一种端到端的文档级关系抽取和实体链接模型
摘要

从非结构化文本中提取结构化信息对于许多下游自然语言处理(NLP)应用至关重要,传统上是通过封闭式信息抽取(cIE)实现的。然而,现有的cIE方法存在两个主要局限:(i) 它们通常是流水线式的,这使得它们容易出现错误传播;(ii) 它们仅限于句子层面,无法捕捉长距离依赖关系,导致推理时间较长且成本较高。为了解决这些问题,我们提出了一种高效且准确的模型——REXEL,用于文档级别的封闭式信息抽取(DocIE)。REXEL在单次前向传递中完成提及检测、实体类型识别、实体消歧、共指解析和文档级关系分类,生成完全链接到参考知识图谱的事实。在类似设置下,REXEL比现有竞争方法平均快11倍,并且在针对任何单一子任务或不同联合任务的各种组合进行优化时均表现出色,平均超过基线方法6个F1分数以上。速度与准确性的结合使REXEL成为一种适用于大规模网络信息抽取的高性价比系统。此外,我们还扩展了DocRED数据集以支持未来在DocIE领域的基准测试工作,该数据集可在https://github.com/amazon-science/e2e-docie 获取。