Command Palette
Search for a command to run...
GETAM:用于弱监督语义分割的梯度加权逐元素Transformer注意力图
GETAM:用于弱监督语义分割的梯度加权逐元素Transformer注意力图
Weixuan Sun Jing Zhang Zheyuan Liu Yiran Zhong Nick Barnes
摘要
弱监督语义分割(Weakly Supervised Semantic Segmentation, WSSS)是一项具有挑战性的任务,尤其当仅使用图像级标签来监督像素级预测时。为弥合图像级标签与像素级预测之间的鸿沟,通常采用类激活图(Class Activation Map, CAM)生成像素级伪标签。然而,卷积神经网络中的CAM存在局部激活问题,即仅最具有判别性的区域被激活,导致对物体整体结构的刻画不完整。相比之下,基于Transformer的方法凭借其对长距离依赖关系的建模能力,能够有效捕捉全局上下文信息,有望缓解这一“局部激活”问题。本文首次提出一种基于Transformer的WSSS方法,并引入梯度加权逐元素Transformer注意力图(Gradient-weighted Element-wise Transformer Attention Map, GETAM)。GETAM能够对特征图中的所有元素实现精细尺度的激活,揭示物体在不同Transformer层中所对应的各个组成部分。此外,我们设计了一种激活感知的伪标签补全模块,以生成高质量的伪标签。最后,我们将上述方法整合进一个端到端的WSSS框架中,并采用双重反向传播机制进行优化。在PASCAL VOC和COCO数据集上的大量实验表明,所提方法显著超越现有端到端最先进的方法,且在多数情况下优于当前主流的多阶段方法。