
摘要
远距离标注数据可以用于扩大统计模型的训练规模,但这种数据通常存在噪声,且噪声程度会因不同的远距离标注技术而异。在本研究中,我们提出了一种两阶段处理此类数据的方法:首先使用学习模型对数据进行去噪,然后在经过清理和去噪的远距离数据上通过标准监督训练方法训练最终模型。我们的去噪方法由两个部分组成。第一部分是一个过滤函数,用于从远距离标注数据中剔除完全不可用的样本;第二部分是一个重标签函数,用于修复保留样本中的噪声标签。这两个组件都是基于从少量人工标注的数据集生成的合成噪声样本来训练的模型。我们在Choi等人(2018)提出的超细实体分类任务上对该方法进行了研究。我们的基线模型是在他们模型的基础上加入了预训练的ELMo表示,该模型已经达到了当前最佳性能。通过添加使用我们学习模型去噪后的远距离数据,进一步提高了基线模型的性能,优于直接在原始远距离数据或启发式去噪远距离数据上训练的模型。