
摘要
现实世界中的数据通常呈现长尾分布,即各类别之间的样本数量在训练阶段极不均衡。这种不平衡数据会导致特征空间产生偏差,进而降低识别模型的性能。本文提出一种新型的长尾识别方法,旨在平衡潜在特征空间。首先,我们引入一种基于MixUp的数据增强技术,以缓解长尾数据带来的偏差。此外,我们提出一种新的监督对比学习方法,称为“混合类别上的监督对比学习”(Supervised Contrastive Learning on Mixed Classes, SMC),用于处理混合图像。SMC根据原始图像的类别标签构建一组正样本,正样本的组合比例在训练损失中起到加权作用。通过基于类别混合的损失函数,SMC能够探索更丰富的数据空间,显著提升模型的泛化能力。在多个基准数据集上的大量实验结果验证了所提单阶段训练方法的有效性。