2 个月前

Grad-CAM:基于梯度的深度网络可视化解释方法

Selvaraju, Ramprasaath R. ; Cogswell, Michael ; Das, Abhishek ; Vedantam, Ramakrishna ; Parikh, Devi ; Batra, Dhruv
Grad-CAM:基于梯度的深度网络可视化解释方法
摘要

我们提出了一种为广泛类别的基于卷积神经网络(CNN)模型生成“视觉解释”的技术,以提高其透明度。我们的方法——梯度加权类激活映射(Grad-CAM),利用目标概念流入最终卷积层的梯度生成一个粗略的定位图,突出图像中对预测该概念重要的区域。Grad-CAM 适用于多种 CNN 模型家族,包括:(1) 带有全连接层的 CNN,(2) 用于结构化输出的 CNN,(3) 用于多模态输入或强化学习任务的 CNN,无需进行任何架构更改或重新训练。我们将 Grad-CAM 与细粒度可视化结合,创建高分辨率的类别区分可视化,并将其应用于现成的图像分类、图像描述和视觉问答(VQA)模型,包括基于 ResNet 的架构。在图像分类模型的背景下,我们的可视化结果 (a) 揭示了它们的失败模式,(b) 对抗性图像具有鲁棒性,(c) 在定位任务上优于先前的方法,(d) 更忠实地反映了底层模型,并且 (e) 通过识别数据集偏差帮助实现泛化。对于图像描述和 VQA,我们展示了即使是非注意力机制模型也能定位输入。我们设计了一种通过 Grad-CAM 识别重要神经元的方法,并将其与神经元名称结合以提供模型决策的文字解释。最后,我们设计并进行了人类研究,以测量 Grad-CAM 是否有助于用户建立对模型预测的信任,并展示了 Grad-CAM 如何帮助未经培训的用户成功辨别出一个“更强”的模型与一个“较弱”的模型,即使两者做出相同的预测。我们的代码可在 https://github.com/ramprs/grad-cam/ 获取,并提供了演示页面 http://gradcam.cloudcv.org 和视频 youtu.be/COjUB9Izk6E。