Command Palette
Search for a command to run...
Grad-CAM:勾配に基づく局所化による深層ネットワークからの視覚的説明
Grad-CAM:勾配に基づく局所化による深層ネットワークからの視覚的説明
概要
我々は、大規模なCNNベースのモデルの意思決定に対して「視覚的説明(visual explanations)」を生成するための手法を提案する。この手法により、モデルの意思決定プロセスの透明性が向上する。本研究で提唱するアプローチ、すなわち勾配重み付きクラス活性化マッピング(Gradient-weighted Class Activation Mapping, Grad-CAM)は、最終畳み込み層に流入する任意のターゲット概念の勾配を利用して、その概念を予測する上で重要な画像領域を示す粗い局所化マップを生成する。Grad-CAMは、以下の多様なCNNモデル体系に適用可能であり、アーキテクチャの変更や再訓練を必要としない:(1)全結合層を含むCNN、(2)構造化出力に用いられるCNN、(3)マルチモーダル入力や強化学習のタスクに用いられるCNN。本手法は、高解像度かつクラス判別性の高い視覚化を、Grad-CAMと細粒度の視覚化を組み合わせることで実現し、ResNetをベースとする既存の画像分類モデル、キャプション生成モデル、視覚的質問応答(Visual Question Answering, VQA)モデルに適用可能である。画像分類モデルの文脈において、本手法による視覚化は、(a)モデルの失敗モードに関する洞察を提供し、(b)敵対的画像に対して堅牢であり、(c)局所化性能において従来手法を上回り、(d)元となるモデルの挙動に忠実であり、(e)データセットバイアスの特定を通じて一般化性能の向上を支援する。キャプション生成およびVQAタスクにおいては、注意力機構を備えないモデルでも入力の重要領域を局所化できることを示した。さらに、Grad-CAMを用いて重要ニューロンを特定し、そのニューロン名と組み合わせることで、モデルの意思決定に対するテキストによる説明を提供する方法を提案した。最後に、人間実験を設計・実施し、Grad-CAMがユーザーがモデルの予測に対して適切な信頼を抱くのを支援するかどうかを評価した結果、Grad-CAMが訓練を受けていないユーザーに対しても、同一の予測を出力する「強力なモデル」と「弱いモデル」を正しく識別する助けとなることが明らかになった。本研究のコードは、https://github.com/ramprs/grad-cam/ にて公開されており、デモは http://gradcam.cloudcv.org、動画は youtu.be/COjUB9Izk6E で視聴可能である。