
摘要
现实世界的数据通常呈现出长尾分布,存在严重的类别不平衡问题,这对深度识别模型构成了巨大挑战。本文识别出在不平衡学习背景下标签价值所面临的一个持续性困境:一方面,标签提供的监督信号通常能带来优于无监督方法的性能;另一方面,严重不平衡的数据会自然引发分类器中的“标签偏差”(label bias),导致决策边界被多数类显著扭曲。在本研究中,我们系统地探讨了标签的这两个方面。我们从理论和实验两个层面证明,类别不平衡学习在半监督和自监督两种范式下均可显著受益。具体而言,我们验证了以下两点:(1)积极方面:不平衡的标签仍然具有价值——在拥有更多无标签数据的前提下,可通过半监督方式有效利用原始标签与额外数据,从而缓解标签偏差,显著提升最终分类器的性能;(2)消极方面:我们进一步指出,不平衡标签并非在所有情况下都有效——在自监督预训练阶段表现良好的模型,其性能始终优于对应的基线方法,表明在某些情况下,依赖原始不平衡标签反而可能限制模型潜力。我们在大规模不平衡数据集上进行了大量实验,验证了所提出策略的理论合理性,结果表明其性能显著优于现有最先进方法。本研究的深刻发现提示我们,有必要重新审视真实长尾任务中不平衡标签的使用方式。相关代码已开源,地址为:https://github.com/YyzHarry/imbalanced-semi-self。