11 天前

CLIP 也是一种高效的分割器:一种文本驱动的弱监督语义分割方法

Yuqi Lin, Minghao Chen, Wenxiao Wang, Boxi Wu, Ke Li, Binbin Lin, Haifeng Liu, Xiaofei He
CLIP 也是一种高效的分割器:一种文本驱动的弱监督语义分割方法
摘要

弱监督语义分割(Weakly Supervised Semantic Segmentation, WSSS)在仅使用图像级别标签的情况下是一项极具挑战性的任务。主流方法通常采用多阶段框架,但存在训练成本高昂的问题。本文探索了对比语言-图像预训练模型(CLIP)在仅依赖图像级标签且无需额外微调的情况下,实现不同类别定位的潜力。为从CLIP高效生成高质量的分割掩码,我们提出了一种新颖的WSSS框架——CLIP-ES。该框架针对CLIP模型特性,对WSSS的三个核心阶段进行了针对性优化设计:1)我们将Softmax函数引入GradCAM,并利用CLIP的零样本(zero-shot)能力,有效抑制非目标类别与背景带来的混淆。同时,为充分挖掘CLIP的潜力,我们重新审视了WSSS场景下的文本输入策略,提出了两种基于文本驱动的优化方法:基于锐度的提示选择(sharpness-based prompt selection)与同义词融合(synonym fusion)。2)为简化类激活图(CAM)精炼阶段的复杂性,我们提出一种基于CLIP-ViT固有多头自注意力机制(Multi-Head Self-Attention, MHSA)的实时类感知注意力亲和模块(Class-Aware Attention-based Affinity, CAA),显著提升计算效率与定位精度。3)在使用CLIP生成的伪掩码训练最终分割模型时,我们引入了一种置信度引导损失(Confidence-Guided Loss, CGL),聚焦于高置信度区域,进一步提升分割性能。实验结果表明,CLIP-ES在Pascal VOC 2012与MS COCO 2014数据集上均取得了当前最优(SOTA)的性能表现,且伪掩码生成阶段仅需先前方法10%的计算时间。代码已开源,地址为:https://github.com/linyq2117/CLIP-ES。

CLIP 也是一种高效的分割器:一种文本驱动的弱监督语义分割方法 | 最新论文 | HyperAI超神经