17 天前

生成数据以缓解自然语言推理数据集中的虚假相关性

Yuxiang Wu, Matt Gardner, Pontus Stenetorp, Pradeep Dasigi
生成数据以缓解自然语言推理数据集中的虚假相关性
摘要

自然语言处理模型常常依赖于数据集中与任务无关的特征与标签之间的虚假相关性,在其训练分布范围内表现良好,但难以泛化到不同的任务分布。为解决这一问题,我们提出通过生成一个去偏(debiased)版本的数据集来应对,该数据集可直接用于训练去偏的、现成的模型,仅需替换其训练数据即可。我们的方法包含两个关键部分:1)一种用于训练数据生成器的方法,以生成高质量且标签一致的数据样本;2)一种基于z统计量度量的过滤机制,用于移除导致虚假相关性的数据点。我们生成了去偏版本的SNLI和MNLI数据集,并在一系列大规模的去偏、分布外(out-of-distribution)及对抗性测试集上进行评估。实验结果表明,在所有测试场景下,基于我们去偏数据集训练的模型均展现出优于原始数据集训练模型的泛化能力。在多数数据集上,我们的方法表现优于或至少可与先前最先进的去偏策略相媲美;当与另一种正交技术——专家乘积(product-of-experts)相结合时,性能进一步提升,在SNLI-hard和MNLI-hard两个基准上均超越了此前最优结果。