2 个月前

SPOT:知识增强的语言表示用于信息抽取

Jiacheng Li; Yannis Katsis; Tyler Baldwin; Ho-Cheol Kim; Andrew Bartko; Julian McAuley; Chun-Nan Hsu
SPOT:知识增强的语言表示用于信息抽取
摘要

知识增强的预训练语言模型在知识库构建任务(如关系抽取)中已被证明比BERT等语言模型更为有效。这些知识增强型语言模型通过在预训练阶段融入知识来生成实体或关系的表示。然而,现有的方法通常为每个实体分配一个独立的嵌入向量。因此,这些方法难以表示词汇表外的实体,并且需要在其底层词元模型(如Transformer)之上使用大量参数,实际应用中由于内存限制可处理的实体数量有限。此外,现有模型仍然难以同时表示实体和关系。为了解决这些问题,我们提出了一种新的预训练模型,该模型分别从文本中的词元片段和片段对中学习实体和关系的表示。通过高效地编码片段,我们的模型可以同时表示实体及其关系,但所需参数少于现有模型。我们在从维基百科提取的知识图谱上预训练了该模型,并在一系列监督和非监督的信息抽取任务上对其进行了测试。结果表明,我们的模型在实体和关系表示方面优于基线模型;在监督设置下,微调后的模型始终优于RoBERTa,并在信息抽取任务上取得了具有竞争力的结果。

SPOT:知识增强的语言表示用于信息抽取 | 最新论文 | HyperAI超神经