Command Palette
Search for a command to run...
使用 Faster RCNN 进行目标检测的类激活图
摘要
一句话总结
POLY-CAM 是一种用于卷积神经网络的高分辨率类激活映射(Class Activation Map),它结合早期和晚期层特征生成显著图,在插入-删除忠实度指标上表现具有竞争力,同时在定位类别特定特征方面优于现有方法。
核心贡献
- 本文提出了一种无需梯度的方法,该方法结合网络早期和晚期层的激活值生成高分辨率类激活映射,且无需专门训练。
- 一种新颖的权重计算机制融合了双重评分策略,以优化激活映射权重,从而改进 Score-CAM 等基于扰动的现有方法。
- 实验评估表明,该方法在插入-删除忠实度指标上表现具有竞争力,同时在精确定位类别特定特征方面优于先前方法。
引言
卷积神经网络在医学成像等安全关键领域的快速部署推动了对可解释人工智能的需求,因为显著图允许从业者验证模型是否依赖于有意义的解剖特征,而非虚假的数据集偏差。现有的可视化技术迫使用户在分辨率和可靠性之间做出权衡,因为基于扰动的方法计算成本高昂,基于梯度的方法容易受到噪声干扰并产生碎片化的尖峰输出,而标准类激活映射由于依赖网络最终层,其分辨率仍然过于粗糙。为克服这些局限性,本文作者提出了 POLY-CAM,该框架将早期卷积层的高分辨率激活值与上采样的晚期层类别特定映射进行复用。通过完全绕过梯度反向传播,该方法能够生成清晰的高分辨率显著图,其忠实度指标可与最先进方法相媲美,同时在定位类别判别性特征方面提供了显著更高的精度。
数据集
- 数据集构成与来源: 作者使用 2012 年 ILSVRC 验证集中的图像构建评估数据集,并针对 VGG16 和 ResNet50 架构补充了预计算的显著图与忠实度指标。
- 子集详情与组织方式: 显著图输出被打包为
.npz文件,每个模型和显著图方法对应一个文件。每个压缩包使用图像文件名(包含.JPEG扩展名)作为键,以索引对应的 numpy 数组。忠实度测量值以.csv文件形式分发,明确按删除或插入协议、曲线下面积摘要与逐步类别确信度、目标模型及显著图技术对数据进行分类。 - 数据使用与处理: 作者利用此整理好的数据,通过删除和插入评分流水线量化模型忠实度。除了依赖静态输出外,作者还提供了用于重新生成
.npz和.csv文件的 Python 脚本,以及用于自动化数据加载和指标计算的 Jupyter 笔记本。 - 元数据与额外处理: 文件组织依赖于严格的命名规范和基于键的索引以确保可追溯性。所有组件(包括精确的图像列表、生成脚本、交互式笔记本以及全面的 README 文档)均通过补充材料和专用匿名服务器共享,以支持完整的可复现性及盲审工作流程。
方法
作者采用递归复用策略生成高分辨率类激活映射,提出了 Poly-CAM 方法。该方法在标准类激活映射(CAM)的基础上,通过结合早期层的激活映射与深层层的上采样显著图来提升分辨率。该过程从最终卷积层计算的标准 CAM 开始,即 PLc=CAMLc,随后沿网络反向进行。在每一层 l,显著图 Plc 是通过使用当前层的局部归一化激活映射对下一层的上采样显著图 Pl+1c 进行调制而得到的。这种调制确保显著性值仅局限于存在激活值的空间区域,从而保持跨层的结构一致性。
如下图所示,该框架以前向递归的方式运行,从最后一层开始,并逐步优化每一层之前的显著图。上采样的 Pl+1c 与 LNorm(CAMlc) 进行逐元素相乘,其中 LNorm 通过将每个元素除以其对应 s×s 块的均值来实现局部归一化。该操作在允许分辨率提升的同时,确保显著性分布保持一致。局部归一化防止了在低激活区域过度放大显著性,从而将注意力保持在语义相关的区域。该过程的递归特性使得早期层的细粒度细节与深层层的高级语义信息得以融合,最终生成既具有空间精度又具备语义意义的高分辨率显著图。
各个激活通道的权重通过三种不同的方法确定:通道置信度增加(CIC)、通道置信度降低(CDC)和通道置信度变化(CVC)。CIC 测量当激活映射对应的输入区域被揭示时 softmax 输出的增加量。CDC 评估该区域被遮蔽时输出的减少量,不仅捕捉特征存在时的重要性,也捕捉特征缺失时的重要性。CVC 结合了这两种效应,提供了通道对预测贡献的综合度量。随后,这些权重被用于递归框架内激活映射的线性组合中。最终显著图通过反向递归计算得出,其中每一层的贡献由下一层的上采样显著图和当前层的局部激活模式进行调制,从而生成优化后的高分辨率输出。
实验
该评估使用经过 VGG16 和 ResNet50 网络处理的两千张验证图像,将三种 Poly-CAM 变体与一套全面的现有解释方法进行比较。视觉评估验证了该方法跨层逐步优化显著图的能力,在提供更优分辨率和精确的类别特定高亮显示的同时,适当地平衡了目标特征与上下文特征。补充实验通过级联随机化健全性检查确认了框架的可靠性,展示了其对输入扰动的低敏感性,并通过消融研究验证了多层整合与归一化对实现最佳性能至关重要。总体而言,组合型 PCAM± 变体被证明是一种高度准确且通用的方法,在视觉清晰度和忠实度方面始终优于基线方法。
作者使用忠实度指标比较了 Poly-CAM 变体与传统 CAM 方法在不同网络层上的性能。结果表明,与 CAM 方法相比,Poly-CAM 方法保持了更高的插入分数和更低的删除分数,其中 PCAM+ 和 PCAM- 在各层中表现一致。组合变体 PCAM± 取得了具有竞争力的结果,尤其是在删除指标方面,表明在突出相关特征时具有更高的精度。Poly-CAM 方法在不同网络层的插入和删除指标上均优于传统 CAM 方法。PCAM+ 和 PCAM- 变体在各层中表现出一致的性能,其中 PCAM+ 获得了更高的插入分数。PCAM± 取得了具有竞争力的删除分数,表明与 CAM 方法相比,在突出相关特征方面的精度有所提升。
作者通过将其对输入扰动的敏感性与其他几种基线方法进行比较,评估了 Poly-CAM 方法的鲁棒性。结果表明,所提出的方法表现出低敏感性,与其他基于 CAM 的方法相当,并显著低于基于梯度和基于扰动的方法。在 Poly-CAM 变体中,PCAM+ 和 PCAM± 表现出相似的敏感性,而 PCAM- 显示出略高的敏感性,尤其是在 ResNet50 上。所提出的 Poly-CAM 方法对输入扰动具有低敏感性,与其他基于 CAM 的方法相似,且远低于梯度和扰动方法。PCAM+ 和 PCAM± 表现出可比的敏感性,而 PCAM- 表现出略高的敏感性,特别是在 ResNet50 上。Poly-CAM 方法在 VGG16 和 ResNet50 模型上的敏感性均保持较低水平,表明其具有稳定的鲁棒性。
作者使用忠实度指标比较了 Poly-CAM 变体与现有显著图方法在 VGG16 和 ResNet50 模型上的性能。结果表明,Poly-CAM 方法取得了具有竞争力的性能,尤其是在插入和删除指标方面,组合变体在两个模型上均表现良好。表格显示,Poly-CAM 变体属于表现领先的方法之一,部分方法相较于其他方法显示出更高的插入值和更低的删除值。与其他方法相比,Poly-CAM 变体在插入和删除指标上取得了具有竞争力的性能。PCAM+ 和 PCAM^\pm 显示出高插入值和低删除值,表明其具有强忠实度。组合变体 PCAM^\pm 在 VGG16 和 ResNet50 上均表现良好,具有高插入和低删除分数。
作者在 VGG16 上将 Poly-CAM 方法的不同变体与传统基于 CAM 的方法进行比较,使用插入、删除和插入-删除指标评估其在多个层上的性能。结果表明,Poly-CAM 变体通常优于标准 CAM 方法,尤其是在插入和插入-删除方面,其中 PCAM± 取得了最高分数。性能因使用的层而异,较晚的层通常能产生更好的结果。在 VGG16 上,Poly-CAM 变体在插入和插入-删除指标上优于标准 CAM 方法。与其他变体相比,PCAM± 在所有指标上均取得了最佳性能。性能随着较晚的层而提升,在 block5_conv3 处观察到最佳结果。
作者使用忠实度指标比较了 Poly-CAM 变体与几种基线方法在 VGG16 和 ResNet50 模型上的性能。结果表明,所提出的方法取得了具有竞争力或更优的性能,尤其是在插入和删除指标方面,其中 PCAM+ 和 PCAM± 在两个模型上均表现良好。与最先进方法相比,PCAM+ 和 PCAM± 在 VGG16 和 ResNet50 上均取得了具有竞争力的插入和删除性能。PCAM± 变体在插入和删除指标上表现出强劲的性能,在 ResNet50 上优于多种基线方法。PCAM+ 和 PCAM± 相较于其他基于 CAM 的方法展现出一致的改进,尤其是在删除指标方面,表明在突出相关特征时具有更高的精度。
该实验在 VGG16 和 ResNet50 架构上评估了 Poly-CAM 变体与传统 CAM、基于梯度及基于扰动的方法,以验证其在特征定位方面的准确性以及对输入噪声的鲁棒性。结果表明,所提出的方法在识别相关特征方面始终优于基线方法,其中 PCAM+ 和 PCAM± 变体在不同网络深度下展现出更优的可靠性。扰动敏感性测试进一步证实,这些变体在输入变化下仍能保持稳定的性能,且性能下降极小。总体而言,本研究确立了 Poly-CAM 方法作为模型可解释性领域中更精确且更稳健的替代方案。