Command Palette
Search for a command to run...
Grad-CAM: Visuelle Erklärungen aus tiefen Netzwerken mittels gradientenbasierter Lokalisierung
Grad-CAM: Visuelle Erklärungen aus tiefen Netzwerken mittels gradientenbasierter Lokalisierung
Zusammenfassung
Wir stellen eine Technik zur Erzeugung von „visuellen Erklärungen“ für Entscheidungen aus einer großen Klasse von CNN-basierten Modellen vor, wodurch diese transparenter werden. Unser Ansatz – Gradient-weighted Class Activation Mapping (Grad-CAM) – nutzt die Gradienten eines beliebigen Zielkonzepts, die in die letzte konvolutionale Schicht fließen, um eine grobe Lokalisationskarte zu erzeugen, die wichtige Bereiche im Bild hervorhebt, die für die Vorhersage des Konzepts entscheidend sind. Grad-CAM ist auf eine Vielzahl von CNN-Modellfamilien anwendbar: (1) CNNs mit vollständig verbundenen Schichten, (2) CNNs zur Verarbeitung strukturierter Ausgaben, (3) CNNs, die in Aufgaben mit multimodalen Eingaben oder im Rahmen von Verstärkungslernen eingesetzt werden, ohne dass Änderungen an der Architektur oder eine Neustraining erforderlich sind. Wir kombinieren Grad-CAM mit feinabgestimmten visuellen Darstellungen, um eine hochauflösende, klassendifferenzierende Visualisierung zu erzeugen, und wenden sie auf kommerziell erhältliche Modelle für Bildklassifikation, Bildbeschreibung (Captioning) und visuelle Fragenstellung (Visual Question Answering, VQA) an, einschließlich Architekturen auf Basis von ResNet. In Bezug auf Bildklassifikationsmodelle liefern unsere Visualisierungen (a) Einblicke in deren Fehlermuster, (b) sind robust gegenüber adversarialen Bildern, (c) überlegen frühere Methoden hinsichtlich der Lokalisierung, (d) sind treuer gegenüber dem zugrundeliegenden Modell und (e) unterstützen die Generalisierung, indem sie Datensatz-Bias identifizieren. Für Captioning und VQA zeigen wir, dass selbst Modelle ohne Aufmerksamkeitsmechanismen in der Lage sind, relevante Eingabebereiche zu lokalisieren. Wir entwickeln eine Methode, um wichtige Neuronen über Grad-CAM zu identifizieren, und kombinieren diese mit Neuronennamen, um textbasierte Erklärungen für Modellentscheidungen bereitzustellen. Schließlich entwerfen und führen wir menschliche Studien durch, um zu messen, ob Grad-CAM dazu beiträgt, dass Nutzer ein angemessenes Vertrauen in die Vorhersagen von Modellen aufbauen, und zeigen, dass Grad-CAM auch ungeschulten Nutzern hilft, einen „stärkeren“ von einem „schwächeren“ Modell zu unterscheiden – selbst wenn beide identische Vorhersagen liefern. Unser Quellcode ist verfügbar unter https://github.com/ramprs/grad-cam/, zusammen mit einer Demo unter http://gradcam.cloudcv.org und einem Video unter youtu.be/COjUB9Izk6E.