
摘要
对比语言图像预训练(CLIP)最近在各种任务中展示了成功,这得益于通过图像-文本对比学习获得的优越特征表示。然而,CLIP所使用的实例判别方法很难对训练数据的语义结构进行编码。为了解决这一局限性,提出了通过迭代聚类分配和分类的聚类判别方法。然而,大多数聚类判别方法仅为每张图像定义一个伪标签,忽略了图像中的多标签信号。在本文中,我们提出了一种新的多标签聚类判别方法,命名为MLCD,以增强表示学习。在聚类步骤中,我们首先基于现成的嵌入特征将大规模LAION-400M数据集聚类为一百万个中心。考虑到自然图像通常包含多个视觉对象或属性,我们选择多个最近的中心作为辅助类别标签。在判别步骤中,我们设计了一种新颖的多标签分类损失函数,该损失函数优雅地分离了正类别和负类别的损失,并减轻了决策边界的模糊性。我们在不同规模的模型和预训练数据集上进行了实验,验证了所提出的多标签聚类判别方法的有效性。实验结果表明,我们的方法在多个下游任务中取得了最先进的性能,包括线性探针、零样本分类和图像-文本检索。代码和模型已发布在https://github.com/deepglint/unicom 。