Take 5: Interpretierbare Bildklassifikation mit einer Handvoll Features

Tiefere neuronale Netze nutzen Tausende vorwiegend undurchsichtiger Merkmale, um eine einzelne Klasse zu identifizieren – eine Entscheidung, der kein Mensch folgen kann. Wir schlagen eine interpretierbare, spärliche und niedrigdimensionale letzte Entscheidungsschicht in einem tiefen neuronalen Netzwerk vor, die messbare Aspekte der Interpretierbarkeit aufweist, und demonstrieren sie anhand der feinkörnigen Bildklassifikation. Wir argumentieren, dass ein Mensch die Entscheidung eines maschinellen Lernmodells nur verstehen kann, wenn die Merkmale interpretierbar sind und nur sehr wenige davon für eine einzelne Entscheidung herangezogen werden. Dazu muss die letzte Schicht spärlich sein und, um die Interpretierbarkeit der Merkmale praktikabel zu machen, niedrigdimensional. Ein solches Modell bezeichnen wir als SLDD-Modell (Sparse Low-Dimensional Decision Model). Wir zeigen, dass ein SLDD-Modell sowohl lokal als auch global einfacher interpretierbar ist als eine dichte, hochdimensionale Entscheidungsschicht, während es gleichzeitig konkurrenzfähige Genauigkeit beibehält. Zudem schlagen wir eine Verlustfunktion vor, die die Merkmalsvielfalt und die Genauigkeit eines Modells verbessert. Unser interpretierbareres SLDD-Modell nutzt pro Klasse lediglich 5 von insgesamt 50 Merkmalen und erreicht dabei eine Genauigkeit von 97 % bis 100 % gegenüber dem Basismodell mit 2048 Merkmalen auf vier gängigen Benchmark-Datensätzen.