
摘要
提取关系对于知识库的补全和构建至关重要,其中远监督方法被广泛用于利用现有知识库自动抽取关系事实。然而,自动构建的数据集中包含大量低质量的句子,这些句子中存在噪声词汇,而当前的远监督方法往往忽视了这一点,导致精度无法接受。为了解决这一问题,我们提出了一种新的基于词级别的远监督关系抽取方法。首先,我们构建子树解析(Sub-Tree Parse, STP)以去除与关系无关的噪声词汇。然后,我们构建一个神经网络模型,输入子树并应用实体级注意力机制来识别每个实例中关系词汇的重要语义特征。为了使我们的模型对噪声词汇更加鲁棒,我们通过迁移学习从实体分类的相关任务中获取先验知识来初始化网络。我们在《纽约时报》(NYT)和 Freebase 的语料库上进行了广泛的实验。实验结果表明,我们的方法是有效的,并且在最先进工作的基础上将精确率/召回率(Precision/Recall, PR)曲线下的面积从 0.35 提高到 0.39。