vor 2 Monaten

Grad-CAM: Visuelle Erklärungen aus tiefen Netzen durch gradientenbasierte Lokalisierung

Selvaraju, Ramprasaath R. ; Cogswell, Michael ; Das, Abhishek ; Vedantam, Ramakrishna ; Parikh, Devi ; Batra, Dhruv

Abstract

Wir schlagen eine Technik zur Erstellung von „visuellen Erklärungen“ für Entscheidungen vor, die von einer großen Klasse von CNN-basierten Modellen getroffen werden, um diese transparenter zu machen. Unser Ansatz – Gradient-gewichtete Klassenaktivierungskarten (Grad-CAM) – verwendet die Gradienten jedes Zielkonzepts, die in die letzte Faltungsschicht fließen, um eine grobe Lokalisierungskarte zu erstellen, die wichtige Bereiche im Bild hervorhebt, die für die Vorhersage des Konzepts relevant sind. Grad-CAM ist auf eine Vielzahl von CNN-Modellfamilien anwendbar: (1) CNNs mit vollständig verbundenen Schichten, (2) CNNs für strukturierte Ausgaben, (3) CNNs für Aufgaben mit multimodalen Eingaben oder Reinforcement Learning, ohne architektonische Änderungen oder erneutes Training. Wir kombinieren Grad-CAM mit feingranularen Visualisierungen, um hochauflösende klassifikationsunterscheidende Visualisierungen zu erstellen und wenden sie auf Standardbildklassifizierungs-, -beschriftungs- und visuelle Frage-Antwort-Modelle (VQA) an, einschließlich ResNet-basierter Architekturen. Im Kontext von Bildklassifizierungsmodellen liefern unsere Visualisierungen (a) Einblicke in ihre Fehlerquellen, (b) sind robust gegenüber feindseligen Bildern, (c) übertreffen vorherige Methoden bei der Lokalisierung, (d) sind dem zugrundeliegenden Modell treuer und (e) helfen durch die Identifikation von Datensatzverzerrungen bei der Generalisierung. Für Beschriftung und VQA zeigen wir, dass auch nicht auf Aufmerksamkeit basierende Modelle Eingaben lokalisieren können. Wir entwickeln eine Methode zur Identifikation wichtiger Neuronen durch Grad-CAM und kombinieren sie mit Neuronennamen, um textuelle Erklärungen für Modellentscheidungen bereitzustellen. Schließlich entwerfen und führen wir menschliche Studien durch, um zu messen, ob Grad-CAM Benutzern hilft, ein angemessenes Vertrauen in Vorhersagen von Modellen aufzubauen. Dabei zeigen wir auch, dass Grad-CAM ungeschulte Benutzer dabei unterstützt, ein „stärkeres“ Modell von einem „schwächeren“ zu unterscheiden, selbst wenn beide identische Vorhersagen treffen. Unser Code ist unter https://github.com/ramprs/grad-cam/ verfügbar sowie ein Demo unter http://gradcam.cloudcv.org und ein Video unter youtu.be/COjUB9Izk6E.