
摘要
自我监督学习(尤其是对比学习)因其在无监督方式下学习判别表示的巨大潜力而引起了广泛关注。尽管已取得公认的成功,现有的对比学习方法仍存在非常低的学习效率问题,例如,为了达到与有监督学习相当的识别精度,需要大约多出十倍的训练轮次。本文揭示了对比学习中的两个矛盾现象,我们称之为欠聚类和过聚类问题,这是提高学习效率的主要障碍。欠聚类指的是当用于对比学习的负样本对不足以区分所有实际对象类别时,模型无法高效地学会发现不同类别样本之间的差异性。过聚类则意味着由于负样本对过多,模型无法从这些样本中高效地学习特征,导致同一实际类别的样本被过度聚类到不同的簇中。为同时解决这两个问题,我们提出了一种基于截断三元组损失的新颖自我监督学习框架。具体而言,我们采用一种旨在最大化正样本对与负样本对之间相对距离的三元组损失来解决欠聚类问题;并通过从所有负样本中选择一个负样本代表来构建负样本对以避免过聚类问题,这一过程由伯努利分布模型保证。我们在多个大规模基准数据集(如ImageNet、SYSU-30k和COCO)上广泛评估了我们的框架。结果表明,我们的模型在最新的一流方法中具有显著的优势(例如,在学习效率方面)。代码可获取地址:https://github.com/wanggrun/triplet 。