
摘要
现实世界中的数据通常遵循长尾分布,其中少数头部类别占据了大部分数据,而大量尾部类别仅包含非常有限的样本。在实际应用中,深度模型由于这种不平衡分布往往在尾部类别的泛化性能上表现不佳。为了解决这一问题,数据增强已成为一种有效的方法,通过为尾部类别合成新的样本以提高其代表性。其中一种流行的方法是使用CutMix,该方法显式地混合尾部类别的图像和其他类别的图像,并根据从两张图像中裁剪区域的比例构建标签。然而,基于区域的标签完全忽略了增强样本的内在语义信息,经常导致误导性的训练信号。为了应对这一问题,我们提出了一种对比CutMix(ConCutMix)方法,该方法通过构建具有语义一致性的增强样本来提升长尾识别的性能。具体而言,我们在对比学习所学到的语义空间中计算样本之间的相似度,并利用这些相似度来校正基于区域的标签。实验结果表明,我们的ConCutMix显著提高了尾部类别的准确率以及整体性能。例如,在ResNeXt-50基础上,我们通过在尾部类别上显著提高3.3%的准确率,使得ImageNet-LT的整体准确率提升了3.0%。我们强调这种改进同样适用于其他基准测试和模型。我们的代码和预训练模型可在https://github.com/PanHaulin/ConCutMix 获取。