17 天前

SegCLIP：基于可学习中心的图像块聚合用于开放词汇语义分割

Huaishao Luo, Junwei Bao, Youzheng Wu, Xiaodong He, Tianrui Li

摘要

近期，对比语言-图像预训练模型（如CLIP）在各类下游任务中展现出令人瞩目的性能。通过在大规模图文数据上进行学习，预训练模型能够捕捉图像中丰富的视觉概念。然而，如何将所学得的视觉知识迁移到开放词汇语义分割任务中，仍处于探索阶段。本文提出一种基于CLIP的新型模型——SegCLIP，用于实现无需标注信息的开放词汇语义分割。SegCLIP以视觉Transformer（ViT）为基础架构，其核心思想是通过在图文对上进行训练，利用可学习的中心点动态聚合图像块至相应的语义区域，从而捕捉潜在的语义分组。该聚合操作能够自适应地识别并组织具有语义一致性的图像区域，进而生成最终的分割结果。为进一步增强视觉表征能力，我们还引入了一种针对掩码图像块的重建损失，以及一种基于超像素与伪标签的KL散度损失。实验结果表明，与现有基线方法相比，本模型在PASCAL VOC 2012（mIoU提升0.3%）、PASCAL Context（mIoU提升2.3%）和COCO（mIoU提升2.2%）数据集上均取得了相当或更优的分割精度。相关代码已开源，地址为：https://github.com/ArrowLuo/SegCLIP。