
摘要
远程监督(Distant Supervision, DS)旨在生成大规模的启发式标注语料库,目前被广泛应用于神经网络关系抽取任务中。然而,该方法严重面临标注噪声和长尾分布问题。现有许多先进方法通常分别处理这两个问题,忽略了二者之间的相互作用。本文提出一种名为RH-Net的新框架,通过引入强化学习与分层关系搜索模块,以提升关系抽取性能。我们利用强化学习指导模型选择高质量样本,同时提出分层关系搜索模块,实现数据丰富类与数据稀疏类之间相关样本语义的共享。在迭代过程中,两个模块持续交互,协同缓解标注噪声与长尾分布问题。在广泛使用的NYT数据集上的大量实验表明,本方法显著优于当前最先进的基线模型。