3 个月前
一种简单但难以被超越的数据增强方法用于自然语言理解与生成
Dinghan Shen, Mingzhi Zheng, Yelong Shen, Yanru Qu, Weizhu Chen

摘要
对抗训练已被证明能够有效提升模型学习表示的泛化能力。然而,该方法通常需要高昂的计算成本来确定注入扰动的方向。本文提出了一种简单而有效的数据增强策略,称为“截断”(cutoff),其核心思想是在微调阶段对输入句子的部分信息进行随机擦除,从而生成其受限视图。值得注意的是,该过程仅依赖于随机采样,因此计算开销极低。为进一步将这些增强样本合理地融入训练目标,我们引入了一种基于Jensen-Shannon散度的一致性损失函数,以确保增强数据的利用具有理论依据。为验证所提策略的有效性,我们将cutoff方法应用于自然语言理解与生成任务。在GLUE基准测试中,尽管方法简洁,cutoff的表现与多种先进的基于对抗的模型相当,甚至在多数任务上更优。我们将该方法进一步扩展至机器翻译任务,并在基于Transformer Base模型的实验中观察到BLEU分数的显著提升。此外,cutoff在IWSLT2014德英翻译数据集上持续优于对抗训练方法,并取得了当前最优(state-of-the-art)的性能表现。