
摘要
长尾分布经常出现在现实世界的数据中,其中大量少数类别的样本数量有限。这种不平衡问题严重影响了标准监督学习算法的性能,而这些算法主要设计用于平衡的训练集。最近的研究表明,监督对比学习在缓解数据不平衡方面展现出巨大的潜力。然而,监督对比学习的性能受到一个固有的挑战的影响:它需要足够大的训练数据批次来构建覆盖所有类别的对比对,但在类别不平衡的数据背景下,这一要求难以满足。为了解决这一障碍,我们提出了一种新颖的概率对比(ProCo)学习算法,该算法估计特征空间中每个类别的样本数据分布,并据此采样对比对。实际上,使用小批次中的特征来估计所有类别的分布,尤其是在不平衡数据的情况下,是不可行的。我们的核心思想是引入一个合理且简单的假设,即对比学习中的归一化特征遵循单位空间上的von Mises-Fisher(vMF)分布混合模型,这带来了两方面的优势。首先,可以仅使用第一个样本矩来估计分布参数,并且可以在不同批次之间高效地在线计算这些参数。其次,基于估计的分布,vMF分布允许我们采样无限数量的对比对,并推导出预期对比损失的闭式形式以实现高效的优化。我们的代码可在https://github.com/LeapLabTHU/ProCo 获取。