17 天前

关于Mixup正则化

Luigi Carratino, Moustapha Cissé, Rodolphe Jenatton, Jean-Philippe Vert
关于Mixup正则化
摘要

Mixup 是一种数据增强技术,通过将训练样本及其标签以凸组合的方式生成新的训练样本。尽管这一简单方法在多种场景和应用中已被实证证明能够提升众多前沿模型的准确率,但其取得成功背后的理论机制仍缺乏充分理解。本文在解释 Mixup 的理论基础方面取得了重要进展,重点阐明了其正则化效应。我们表明,Mixup 可被重新诠释为在数据变换与变换后数据的随机扰动共同作用下的标准经验风险最小化估计器。基于这一新视角,我们获得了两个核心洞见:其一,数据变换的机制提示我们,在测试阶段,使用 Mixup 训练的模型也应作用于变换后的数据——仅需一行代码修改,我们通过实验验证了该做法能同时提升模型的预测准确率与校准性能;其二,我们揭示了该新解释中引入的随机扰动,能够自然诱导出多种已知的正则化策略,包括标签平滑(label smoothing)以及降低估计器的利普希茨常数(Lipschitz constant)。这些正则化机制之间具有协同效应,共同形成一种自我校准且高效的正则化效果,有效抑制过拟合与预测中的过度自信问题。本文通过一系列实验验证了上述理论分析,进一步支持了我们的结论。