11 天前

基于语义分组的自监督视觉表征学习

Xin Wen, Bingchen Zhao, Anlin Zheng, Xiangyu Zhang, Xiaojuan Qi

摘要

在本文中，我们致力于从无标签的场景中心数据中学习视觉表征。现有方法已证明了利用场景中心数据内部复杂结构的潜力，但通常依赖于手工设计的“物体性先验”（objectness priors）或特定的预训练任务来构建学习框架，这可能损害模型的泛化能力。为此，我们提出了一种基于数据驱动语义槽的对比学习方法，即SlotCon，用于联合实现语义分组与表征学习。该方法通过将像素分配给一组可学习的原型（prototypes）来完成语义分组，这些原型能够通过特征上的注意力池化机制自适应地适应每个样本，并动态生成新的语义槽。基于所学习到的数据相关语义槽，我们引入对比学习目标进行表征学习，该目标不仅增强了特征的可区分性，还反过来促进语义一致像素的聚集。与以往方法相比，我们的方法通过联合优化语义分组与对比学习这两个耦合目标，避免了对人工设计先验的依赖，能够从场景中心图像中有效学习到对象或组级别的表征。实验结果表明，该方法能有效将复杂场景分解为语义一致的组别，从而显著提升下游任务的性能，包括目标检测、实例分割和语义分割。代码已公开，地址为：https://github.com/CVMI-Lab/SlotCon。