17 天前

GenIE:生成式信息抽取

Martin Josifoski, Nicola De Cao, Maxime Peyrard, Fabio Petroni, Robert West
GenIE:生成式信息抽取
摘要

结构化且基于知识的文本表示通常通过封闭式信息抽取(closed information extraction)来形式化,其目标是从文本中提取与预定义知识库模式中实体和关系集合完全一致的(主体,关系,客体)三元组集合。现有大多数方法采用流水线式架构,容易产生误差累积,且所有方法仅适用于实体与关系数量极为有限的不切实际场景。本文提出GenIE(生成式信息抽取),这是首个端到端的自回归式封闭式信息抽取框架。GenIE通过自回归方式生成以文本形式表示的关系与实体,自然地利用了预训练Transformer模型中的语言知识。得益于一种新颖的双层约束生成策略,模型仅生成符合预定义知识库模式的三元组。实验结果表明,GenIE在封闭式信息抽取任务上达到当前最优性能,相较于基线方法在更少的训练样本下仍能实现良好泛化,并可扩展至此前难以处理的大规模实体与关系数量。本工作使封闭式信息抽取在现实应用场景中真正具备可行性,为下游任务开辟了新的机遇。此外,本研究为实现信息抽取核心任务的统一端到端方法奠定了基础。代码、数据与模型已公开于:https://github.com/epfl-dlab/GenIE。

GenIE:生成式信息抽取 | 最新论文 | HyperAI超神经