2 个月前
生成数据增强以促进常识推理
Yiben Yang; Chaitanya Malaviya; Jared Fernandez; Swabha Swayamdipta; Ronan Le Bras; Ji-Ping Wang; Chandra Bhagavatula; Yejin Choi; Doug Downey

摘要
近期在常识推理领域的进展依赖于大规模的人工标注训练数据来实现最佳性能。然而,手动创建训练样本既昂贵又容易引入注释伪影,这些伪影会被神经模型轻易利用并过度拟合。我们研究了G-DAUG^C,这是一种新颖的生成式数据增强方法,旨在在低资源环境下实现更准确和稳健的学习。我们的方法使用预训练语言模型生成合成样本,并选择最具信息量和多样性的样本集进行数据增强。在多个常识推理基准测试中,G-DAUG^C 一致优于现有的基于回译的数据增强方法,并在 WinoGrande、CODAH 和 CommonsenseQA 上建立了新的最先进水平。此外,除了提高分布内准确性外,使用 G-DAUG^C 增强的训练还增强了对分布外样本的泛化能力,表现出更强的对抗性和扰动样本的鲁棒性。我们的分析表明,G-DAUG^C 能够生成一组多样的流畅训练样本,并且其选择和训练方法对于性能至关重要。我们的研究结果鼓励未来的研究进一步探索生成式数据增强方法,以提升分布内学习和分布外泛化的能力。