2 个月前

多标签聚类判别在视觉表征学习中的应用

Xiang An; Kaicheng Yang; Xiangzi Dai; Ziyong Feng; Jiankang Deng

摘要

对比语言图像预训练（CLIP）最近在各种任务中展示了成功，这得益于通过图像-文本对比学习获得的优越特征表示。然而，CLIP所使用的实例判别方法很难对训练数据的语义结构进行编码。为了解决这一局限性，提出了通过迭代聚类分配和分类的聚类判别方法。然而，大多数聚类判别方法仅为每张图像定义一个伪标签，忽略了图像中的多标签信号。在本文中，我们提出了一种新的多标签聚类判别方法，命名为MLCD，以增强表示学习。在聚类步骤中，我们首先基于现成的嵌入特征将大规模LAION-400M数据集聚类为一百万个中心。考虑到自然图像通常包含多个视觉对象或属性，我们选择多个最近的中心作为辅助类别标签。在判别步骤中，我们设计了一种新颖的多标签分类损失函数，该损失函数优雅地分离了正类别和负类别的损失，并减轻了决策边界的模糊性。我们在不同规模的模型和预训练数据集上进行了实验，验证了所提出的多标签聚类判别方法的有效性。实验结果表明，我们的方法在多个下游任务中取得了最先进的性能，包括线性探针、零样本分类和图像-文本检索。代码和模型已发布在https://github.com/deepglint/unicom 。