
摘要
在本文中,我们致力于从无标签的场景中心数据中学习视觉表征。现有方法已证明了利用场景中心数据内部复杂结构的潜力,但通常依赖于手工设计的“物体性先验”(objectness priors)或特定的预训练任务来构建学习框架,这可能损害模型的泛化能力。为此,我们提出了一种基于数据驱动语义槽的对比学习方法,即SlotCon,用于联合实现语义分组与表征学习。该方法通过将像素分配给一组可学习的原型(prototypes)来完成语义分组,这些原型能够通过特征上的注意力池化机制自适应地适应每个样本,并动态生成新的语义槽。基于所学习到的数据相关语义槽,我们引入对比学习目标进行表征学习,该目标不仅增强了特征的可区分性,还反过来促进语义一致像素的聚集。与以往方法相比,我们的方法通过联合优化语义分组与对比学习这两个耦合目标,避免了对人工设计先验的依赖,能够从场景中心图像中有效学习到对象或组级别的表征。实验结果表明,该方法能有效将复杂场景分解为语义一致的组别,从而显著提升下游任务的性能,包括目标检测、实例分割和语义分割。代码已公开,地址为:https://github.com/CVMI-Lab/SlotCon。