17 天前

SegCLIP:基于可学习中心的图像块聚合用于开放词汇语义分割

Huaishao Luo, Junwei Bao, Youzheng Wu, Xiaodong He, Tianrui Li
SegCLIP:基于可学习中心的图像块聚合用于开放词汇语义分割
摘要

近期,对比语言-图像预训练模型(如CLIP)在各类下游任务中展现出令人瞩目的性能。通过在大规模图文数据上进行学习,预训练模型能够捕捉图像中丰富的视觉概念。然而,如何将所学得的视觉知识迁移到开放词汇语义分割任务中,仍处于探索阶段。本文提出一种基于CLIP的新型模型——SegCLIP,用于实现无需标注信息的开放词汇语义分割。SegCLIP以视觉Transformer(ViT)为基础架构,其核心思想是通过在图文对上进行训练,利用可学习的中心点动态聚合图像块至相应的语义区域,从而捕捉潜在的语义分组。该聚合操作能够自适应地识别并组织具有语义一致性的图像区域,进而生成最终的分割结果。为进一步增强视觉表征能力,我们还引入了一种针对掩码图像块的重建损失,以及一种基于超像素与伪标签的KL散度损失。实验结果表明,与现有基线方法相比,本模型在PASCAL VOC 2012(mIoU提升0.3%)、PASCAL Context(mIoU提升2.3%)和COCO(mIoU提升2.2%)数据集上均取得了相当或更优的分割精度。相关代码已开源,地址为:https://github.com/ArrowLuo/SegCLIP。