11 天前

基于视觉词学习与混合池化的弱监督语义分割

Lixiang Ru, Bo Du, Yibing Zhan, Chen Wu
基于视觉词学习与混合池化的弱监督语义分割
摘要

基于图像级标签的弱监督语义分割(Weakly-Supervised Semantic Segmentation, WSSS)方法通常通过训练分类网络生成类别激活图(Class Activation Maps, CAMs)作为初始粗粒度的分割标签。然而,现有WSSS方法的性能仍远未达到理想水平,主要原因在于其所采用的CAMs存在两个关键问题:其一,CAMs通常仅关注物体的局部判别性区域,难以覆盖完整的物体范围;其二,CAMs中常包含大量无关的背景区域。这两个问题的根本原因在于分类网络在训练过程中仅依赖图像级监督信号,并在全局信息聚合过程中缺乏对局部细节的精细建模。针对上述问题,本文提出了一种视觉词学习模块(Visual Words Learning Module)与混合池化策略(Hybrid Pooling Approach),并将其融入分类网络中以有效缓解上述缺陷。在视觉词学习模块中,我们通过强制分类网络学习细粒度的视觉词标签,从而促使模型识别更完整的物体区域。具体而言,该模块利用一个可更新的码本(codebook)来学习视觉词,其更新机制通过两种新提出的策略实现:基于学习的策略(learning-based strategy)与基于记忆库的策略(memory-bank strategy)。对于CAMs中背景冗余的问题,本文提出的混合池化方法通过融合全局平均池化与局部判别性信息,兼顾了物体完整性的保持与背景区域的抑制。我们在PASCAL VOC 2012和MS COCO 2014数据集上对所提方法进行了全面评估。在不依赖任何额外显著性先验信息的前提下,该方法在PASCAL VOC数据集的验证集(val)和测试集(test)上分别取得了70.6%和70.7%的平均交并比(mIoU),在MS COCO数据集的验证集上达到36.2%的mIoU,显著超越了当前最先进的WSSS方法。

基于视觉词学习与混合池化的弱监督语义分割 | 最新论文 | HyperAI超神经