
摘要
自监督学习在利用大量未标注数据方面展现出巨大潜力,然而迄今为止,其进展主要局限于高度精炼的预训练数据集(如ImageNet)。本文探讨了在更大、但标注程度较低的图像数据集(如YFCC)上进行对比学习的影响,发现由此产生的表征质量存在显著差异。我们假设,这种“数据精炼度差距”源于图像类别分布的变化——即类别分布更加多样化且呈现重尾特征,导致可用于学习的负样本相关性降低。为验证这一假设,我们提出了一种新方法——“分而对比”(Divide and Contrast, DnC),该方法交替执行对比学习与基于聚类的难负样本挖掘。实验结果表明,当在低精炼度数据集上进行预训练时,DnC显著提升了自监督学习在下游任务中的性能,同时在精炼数据集上仍能保持与当前最先进方法相当的竞争力。