
摘要
数据混合增强(Data mixing augmentation)在训练深度模型方面已被证明具有显著效果。现有方法主要基于图像像素的混合比例来混合标签,然而,细粒度图像的主要判别信息通常集中在细微区域,此类方法在细粒度识别任务中容易引入严重的标签噪声。本文提出一种新颖的增强方案——语义比例混合(Semantically Proportional Mixing, SnapMix),该方法利用类别激活图(Class Activation Map, CAM)来降低细粒度数据增强过程中的标签噪声。SnapMix 通过估计混合图像的内在语义组成来生成目标标签,支持非对称混合操作,并确保合成图像与目标标签之间保持语义一致性。实验结果表明,所提方法在多种数据集及不同网络深度下,均持续优于现有的基于混合的增强方法。此外,通过引入中层特征,SnapMix 进一步实现了顶尖性能,展现出其作为细粒度识别任务可靠基线的巨大潜力。代码已开源,地址为:https://github.com/Shaoli-Huang/SnapMix.git。