ViT-NeT: Interpretierbare Vision Transformers mit Neural Tree Decoder

Vision-Transformer (ViT), die eine state-of-the-art-Leistung in der Bildklassifikation demonstriert haben, können zudem globale Interpretationen durch auf Aufmerksamkeit basierende Beiträge visualisieren. Allerdings erschwert die Komplexität des Modells die Interpretation des Entscheidungsprozesses, und die Mehrdeutigkeit der Aufmerksamkeitskarten kann zu irreführenden Korrelationen zwischen Bildpatches führen. In dieser Studie stellen wir einen neuen ViT-Neural-Tree-Decoder (ViT-NeT) vor. Dabei dient ein ViT als Backbone, und zur Überwindung seiner Limitationen werden die ausgegebenen kontextuellen Bildpatches an den vorgeschlagenen NeT weitergeleitet. Der NeT zielt darauf ab, feinabgestufte Objekte mit ähnlichen inter-klassischen Korrelationen und unterschiedlichen intra-klassischen Korrelationen präzise zu klassifizieren. Zudem beschreibt er den Entscheidungsprozess mittels einer Baumstruktur und Prototypen und ermöglicht eine visuelle Interpretation der Ergebnisse. Der vorgeschlagene ViT-NeT ist darauf ausgelegt, nicht nur die Klassifikationsleistung zu verbessern, sondern auch eine menschenfreundliche Interpretation bereitzustellen, was effektiv das Spannungsverhältnis zwischen Leistung und Interpretierbarkeit löst. Wir haben die Leistung von ViT-NeT mit anderen state-of-the-art-Methoden anhand weit verbreiteter Benchmark-Datensätze für feinabgestufte visuelle Kategorisierung verglichen und experimentell nachgewiesen, dass die vorgeschlagene Methode hinsichtlich Klassifikationsleistung und Interpretierbarkeit überlegen ist. Der Quellcode und die Modelle sind öffentlich unter https://github.com/jumpsnack/ViT-NeT verfügbar.