HyperAIHyperAI

Command Palette

Search for a command to run...

ViT-NeT: Interpretierbare Vision Transformers mit Neural Tree Decoder

Sangwon Kim; Jaeyeal Nam; Byoung Chul Ko

Zusammenfassung

Vision-Transformer (ViT), die eine state-of-the-art-Leistung in der Bildklassifikation demonstriert haben, können zudem globale Interpretationen durch auf Aufmerksamkeit basierende Beiträge visualisieren. Allerdings erschwert die Komplexität des Modells die Interpretation des Entscheidungsprozesses, und die Mehrdeutigkeit der Aufmerksamkeitskarten kann zu irreführenden Korrelationen zwischen Bildpatches führen. In dieser Studie stellen wir einen neuen ViT-Neural-Tree-Decoder (ViT-NeT) vor. Dabei dient ein ViT als Backbone, und zur Überwindung seiner Limitationen werden die ausgegebenen kontextuellen Bildpatches an den vorgeschlagenen NeT weitergeleitet. Der NeT zielt darauf ab, feinabgestufte Objekte mit ähnlichen inter-klassischen Korrelationen und unterschiedlichen intra-klassischen Korrelationen präzise zu klassifizieren. Zudem beschreibt er den Entscheidungsprozess mittels einer Baumstruktur und Prototypen und ermöglicht eine visuelle Interpretation der Ergebnisse. Der vorgeschlagene ViT-NeT ist darauf ausgelegt, nicht nur die Klassifikationsleistung zu verbessern, sondern auch eine menschenfreundliche Interpretation bereitzustellen, was effektiv das Spannungsverhältnis zwischen Leistung und Interpretierbarkeit löst. Wir haben die Leistung von ViT-NeT mit anderen state-of-the-art-Methoden anhand weit verbreiteter Benchmark-Datensätze für feinabgestufte visuelle Kategorisierung verglichen und experimentell nachgewiesen, dass die vorgeschlagene Methode hinsichtlich Klassifikationsleistung und Interpretierbarkeit überlegen ist. Der Quellcode und die Modelle sind öffentlich unter https://github.com/jumpsnack/ViT-NeT verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ViT-NeT: Interpretierbare Vision Transformers mit Neural Tree Decoder | Paper | HyperAI