2 个月前

mixup：超越经验风险最小化

Hongyi Zhang; Moustapha Cisse; Yann N. Dauphin; David Lopez-Paz

摘要

大型深度神经网络具有强大的能力，但表现出一些不良行为，如记忆效应和对对抗样本的敏感性。在本研究中，我们提出了一种简单的学习原则——mixup，以缓解这些问题。本质上，mixup 通过对成对样本及其标签的凸组合进行训练，使神经网络在训练样本之间倾向于表现出简单线性的行为。我们在 ImageNet-2012、CIFAR-10、CIFAR-100、Google 命令和 UCI 数据集上的实验表明，mixup 能够提高最先进神经网络架构的泛化能力。此外，我们发现 mixup 可以减少对错误标签的记忆效应，增强对对抗样本的鲁棒性，并稳定生成对抗网络（Generative Adversarial Networks, GANs）的训练过程。