6 个月前

摘要

类激活图（Class Activation Map, CAM）已成为弱监督语义分割（Weakly Supervised Semantic Segmentation, WSSS）领域中广泛使用的一种工具，能够仅通过图像级标签实现对图像中目标物体区域的定位。然而，现有的CAM方法由于缺乏细粒度的监督信号，往往存在目标物体区域激活不足以及背景区域误激活的问题，这限制了模型对图像整体语义的理解能力。针对这一挑战，本文提出一种新颖的基于问题-答案跨语言-图像匹配的弱监督语义分割框架（Question-Answer Cross-Language-Image Matching, QA-CLIMS），充分利用视觉-语言基础模型的强大文本理解能力，以增强图像的语义表征，并指导激活图的生成。具体而言，我们采用问题-答案提示工程（Question-Answer Prompt Engineering, QAPE）技术，向视觉问答（Visual Question Answering, VQA）模型提出一系列精心设计的问题，从而为每张查询图像生成一个包含前景目标与背景信息的文本语料库，该语料库能够自适应地反映图像内容。随后，我们在区域图像-文本对比网络（Region Image Text Contrastive, RITC）中引入对比学习机制，将提取出的前景与背景区域与生成的文本语料库进行匹配与对齐。该方法通过引入开放词汇表中丰富的文本信息作为额外监督信号，显著提升了模型对目标物体完整区域的识别能力，同时有效抑制了背景区域的误激活现象。我们进行了大量实验与分析，验证了所提方法的有效性。实验结果表明，QA-CLIMS在PASCAL VOC 2012和MS COCO两个主流数据集上均达到了当前最优性能。代码已开源，地址为：https://github.com/CVI-SZU/QA-CLIMS

源 PDF