2 个月前
使用视觉变换器的最大池化在弱监督语义分割中协调类别和形状
Simone Rossetti; Damiano Zappia; Marta Sanzari; Marco Schaerf; Fiora Pirri

摘要
弱监督语义分割(WSSS)研究已经探索了许多方向来改进典型的流水线,即卷积神经网络(CNN)加上类别激活图(CAM)再加精炼,仅以图像类别标签作为监督。尽管与全监督方法的差距已有所缩小,但在这一框架内进一步减少差距似乎不太可能。另一方面,基于视觉变换器(Vision Transformers, ViT)的WSSS方法尚未探索CAM的有效替代方案。研究表明,ViT特征在自监督学习中保留了场景布局和物体边界。为了验证这些发现,我们证明了全局最大池化(Global Max Pooling, GMP)可以进一步增强变换器在自监督方法中的优势,通过利用补丁特征与类别概率协商像素标签概率。本研究提出了一种新的WSSS方法,称为ViT-PCM(ViT 补丁-类别映射),该方法不依赖于CAM。所提出的端到端网络通过单一优化过程学习,生成形状精细且定位准确的分割掩码。我们的模型在基线伪掩码(Baseline Pseudo-Masks, BPM)上超越了现有最佳水平,在PascalVOC 2012验证集上达到了69.3%的平均交并比(mIoU)。我们展示了该方法具有最少的参数量,但精度却高于所有其他方法。简而言之,我们的方法在定量和定性结果方面均表明,ViT-PCM是基于CNN-CAM架构的一个优秀替代方案。