Q-SENN: Quantized Self-Explaining Neural Networks

Erklärungen in der Computer Vision sind häufig erwünscht, doch die meisten tiefen neuronalen Netze können lediglich Saliency Maps liefern, deren Treue zweifelhaft ist. Selbst-erklärende neuronale Netze (Self-Explaining Neural Networks, SENN) extrahieren interpretierbare Konzepte mit hoher Treue, Vielfalt und semantischer Grundlage, um diese linear für Entscheidungsprozesse zu kombinieren. Obwohl sie erklären können, was erkannt wurde, weisen erste Implementierungen Mängel hinsichtlich Genauigkeit und Verallgemeinerbarkeit auf. Wir stellen das quantisierte selbst-erklärende neuronale Netz Q-SENN vor. Q-SENN erfüllt oder übertrifft die gewünschten Eigenschaften von SENN, ist dennoch auf komplexere Datensätze anwendbar und behält die überwiegende oder vollständige Genauigkeit eines nicht-interpretable Basismodells bei, wobei es in allen betrachteten Metriken die vorhergehende Forschung übertrifft. Q-SENN beschreibt die Beziehung zwischen jeder Klasse und jedem Merkmal als entweder positiv, negativ oder neutral – anstatt als beliebige Anzahl möglicher Relationen – wodurch klarere, binäre, menschenfreundliche Merkmale erzwungen werden. Da durchschnittlich nur fünf interpretierbare Merkmale pro Klasse zugewiesen werden, zeigt Q-SENN überzeugende lokale und globale Interpretierbarkeit. Zusätzlich schlagen wir eine Merkmalsausrichtungsmethode vor, die es ermöglicht, gelernte Merkmale ohne zusätzliche Überwachung mit menschensprachbasierten Konzepten zu alignen. Dadurch wird die verbalisierbare Interpretation des Gelernten erheblich erleichtert. Der Quellcode ist veröffentlicht: https://github.com/ThomasNorr/Q-SENN