
摘要
大型深度神经网络具有强大的能力,但表现出一些不良行为,如记忆效应和对对抗样本的敏感性。在本研究中,我们提出了一种简单的学习原则——mixup,以缓解这些问题。本质上,mixup 通过对成对样本及其标签的凸组合进行训练,使神经网络在训练样本之间倾向于表现出简单线性的行为。我们在 ImageNet-2012、CIFAR-10、CIFAR-100、Google 命令和 UCI 数据集上的实验表明,mixup 能够提高最先进神经网络架构的泛化能力。此外,我们发现 mixup 可以减少对错误标签的记忆效应,增强对对抗样本的鲁棒性,并稳定生成对抗网络(Generative Adversarial Networks, GANs)的训练过程。