Grad-CAM++: Verbesserte visuelle Erklärungen für tiefe Faltungsnetze

In den letzten zehn Jahren haben Convolutional Neural Network (CNN)-Modelle großen Erfolg bei der Lösung komplexer visueller Probleme erzielt. Allerdings werden diese tiefen Modelle aufgrund des Mangels an Verständnis ihrer internen Funktionsweise als "Black Box"-Methoden wahrgenommen. In jüngerer Zeit gibt es ein erhebliches Interesse daran, erklärbare Deep-Learning-Modelle zu entwickeln, und dieser Artikel ist ein Beitrag in diese Richtung. Aufbauend auf der kürzlich vorgeschlagenen Methode Grad-CAM schlagen wir eine verallgemeinerte Methode namens Grad-CAM++ vor, die bessere visuelle Erklärungen für CNN-Vorhersagen bereitstellen kann, insbesondere in Bezug auf bessere Objektlokalisation sowie die Erklärung mehrerer Objektinstanzen in einem einzelnen Bild im Vergleich zum aktuellen Stand der Technik. Wir liefern eine mathematische Herleitung für die vorgeschlagene Methode, die eine gewichtete Kombination der positiven partiellen Ableitungen der Feature Maps der letzten Faltungsschicht bezüglich eines bestimmten Klassifikationsscores verwendet, um eine visuelle Erklärung für das entsprechende Klassenlabel zu generieren. Unsere umfangreichen Experimente und Bewertungen, sowohl subjektiv als auch objektiv, an Standarddatensätzen zeigten, dass Grad-CAM++ vielversprechende menschlich interpretierbare visuelle Erklärungen für eine gegebene CNN-Architektur bei verschiedenen Aufgaben wie Klassifikation, Bildunterschriftenerstellung und 3D-Bewegungserkennung liefert; sowie in neuen Szenarien wie Knowledge Distillation (Wissensverdichtung).