
摘要
Mixup 是一种依赖于数据的正则化技术,其核心思想是通过对输入样本及其对应输出进行线性插值来生成虚拟样本。该方法在标准机器学习数据集上的训练中已被证明能够提升模型的准确率。然而,有研究指出,Mixup 有可能生成分布外(out-of-distribution)的虚拟样本,甚至在增强后的训练集中引入逻辑矛盾,从而产生对抗性影响。本文提出了一种名为局部 Mixup(Local Mixup)的新方法,该方法在计算损失时对距离较远的输入样本施加较低权重,从而增强局部邻域内的样本关联性。在受限条件下,我们证明了 Local Mixup 能够在偏差(bias)与方差(variance)之间实现权衡,其极端情况分别退化为标准训练和经典 Mixup 方法。基于标准化的计算机视觉基准测试,我们进一步验证了 Local Mixup 可有效提升模型的测试准确率。