
摘要
远程监督关系抽取(RE)是一种有效的方法,可以将关系抽取扩展到大规模语料库,但其标签存在噪声问题。现有的方法试图通过多实例学习和提供额外信息来减轻噪声的影响,但主要只能识别最常见的关系,而忽略了长尾部分的关系。我们提出了一种新的基于远程监督和变换器的关系抽取方法——REDSandT(利用远程监督和变换器进行关系抽取),该方法通过利用BERT预训练模型以及标签与实体之间的关系,生成高度信息量的实例和标签嵌入向量,从而能够捕捉更广泛的关系集。我们通过对包含连接实体对的子树及其实体类型的结构化输入进行微调,引导REDSandT仅关注关系标记。利用提取出的信息向量,我们构建了标签嵌入,并将其作为实例上的注意力机制进一步减少噪声。最终,我们通过拼接关系嵌入和实例嵌入来表示句子。在NYT-10数据集上的实验表明,REDSandT能够以更高的置信度捕捉更广泛的关系集,达到了最先进的AUC值(0.424)。