11 天前

F-CAM:通过引导式参数上采样实现全分辨率类别激活图

Soufiane Belharbi, Aydin Sarraf, Marco Pedersoli, Ismail Ben Ayed, Luke McCaffrey, Eric Granger
F-CAM:通过引导式参数上采样实现全分辨率类别激活图
摘要

类激活映射(Class Activation Mapping, CAM)方法近年来在弱监督目标定位(Weakly-Supervised Object Localization, WSOL)任务中受到广泛关注。这类方法能够在无需依赖全标注图像数据集训练的前提下,实现卷积神经网络(CNN)的可视化与可解释性。通常,CAM方法被集成于现成的CNN主干网络(如ResNet50)中。然而,由于卷积与池化操作的存在,这些主干网络生成的CAM分辨率较低,其下采样因子最高可达32,导致定位结果不够精确。为恢复全尺寸CAM,通常需采用插值方法,但该方法并未考虑物体的统计特性(如颜色、纹理等),因而生成的激活区域边界不一致,定位精度受限。为此,本文提出一种通用的参数化CAM上采样方法,能够构建高精度的全分辨率类激活映射(Full-resolution CAM, F-CAM)。具体而言,我们设计了一种可训练的解码架构,可与任意CNN分类器无缝连接,从而生成高精度的目标定位结果。给定原始低分辨率CAM,通过随机采样前景与背景像素对解码器进行微调,并引入图像统计特性及尺寸约束等先验信息,进一步扩展并精细化目标边界。在CUB-200-2011与OpenImages两个数据集上,基于三种CNN主干网络和六种WSOL基线方法的大量实验表明,所提出的F-CAM方法在CAM定位精度方面实现了显著提升。F-CAM的性能与当前最先进的WSOL方法相当,且在推理阶段所需计算量更少,具有更高的效率优势。