
摘要
现有的自监督学习(Self-Supervised Learning, SSL)方法主要应用于人工平衡的数据集(如 ImageNet)上训练表征模型。然而,在实际应用场景中,数据集往往存在类别分布不均衡的问题,此时现有方法的性能尚不明确。针对这一问题,我们开展了一系列研究,系统考察了自监督对比学习方法与监督学习方法在多个数据集上的表现,这些数据集的训练样本分布从均衡状态逐渐过渡到长尾分布。研究结果令人振奋:与监督学习方法在数据不均衡时性能显著下降不同,自监督对比学习方法在数据严重不均衡的情况下仍能保持稳定且优异的性能。这一发现促使我们深入探究对比学习所学习到的特征空间为何具有良好的平衡性——即不同类别之间的特征表示在线性可分性上表现出高度一致性。进一步实验表明,在多种设置下,能够生成平衡特征空间的表征模型,其泛化能力显著优于生成不平衡特征空间的模型。基于上述洞察,我们提出一种新型表征学习方法——$k$-正例对比学习($k$-positive contrastive learning)。该方法有效融合了监督学习与对比学习的优势,能够学习到既具备强判别性又保持类别间特征分布平衡的表征。大量实验验证了该方法在多种识别任务上的优越性能。尤为突出的是,其在具有挑战性的长尾识别基准测试中取得了新的最先进(state-of-the-art)结果。相关代码与模型将公开发布。