
摘要
从非结构化文本中联合抽取实体与关系以构建事实三元组,是构建知识库(Knowledge Base, KB)的一项基础任务。一种常用方法是通过预测实体对来推断其对应的关系,从而解码出三元组。然而,该任务在实际应用中仍面临诸多挑战,尤其是在处理重叠三元组问题时尤为显著。为应对这一难题,本文提出了一种新型高效联合实体与关系抽取模型——TDEER(Translating Decoding Schema for Joint Extraction of Entities and Relations)。与现有方法不同,TDEER采用“翻译解码”机制,将关系视为从主体到客体的翻译操作,即三元组被建模为“主体 + 关系 → 客体”的形式。该翻译解码机制能够自然地处理重叠三元组问题,因为它可识别所有可能的三元组,包括重叠与非重叠情形。为提升模型的鲁棒性,本文引入负样本以缓解不同阶段中误差的累积。在多个公开数据集上的大量实验表明,TDEER在性能上可与当前最先进的(State-of-the-Art, SOTA)方法相媲美。此外,计算复杂度分析显示,TDEER相较强大基线模型具有更高的效率,尤其在推理速度方面,其性能比近期SOTA模型快约两倍。代码已开源,地址为:https://github.com/4AI/TDEER。