HyperAIHyperAI

Command Palette

Search for a command to run...

IA-RED2^22: Interpretierbarkeitsbewusste Redundanzreduzierung für Visionstransformer

Bowen Pan¹, Rameswar Panda², Yifan Jiang³, Zhangyang Wang³, Rogerio Feris², Aude Oliva¹,²

Zusammenfassung

Das auf Selbst-Aufmerksamkeit basierende Modell, der Transformer, wird in letzter Zeit zum führenden Backbone im Bereich der Computer Vision. Trotz des beeindruckenden Erfolgs von Transformatoren in verschiedenen visuellen Aufgaben leiden sie noch immer unter hohen Rechen- und intensiven Speicherkosten. Um diese Einschränkung zu beheben, präsentiert dieser Artikel ein Interpretabilität-bewusstes Redundanzreduktionsframework (IA-RED2^22). Wir beginnen damit, eine große Menge an redundanten Berechnungen zu beobachten, die hauptsächlich auf unkorrelierten Eingangspatches verwendet werden, und führen dann ein interpretierbares Modul ein, das diese redundanten Patches dynamisch und elegant entfernt. Dieses neuartige Framework wird anschließend zu einer hierarchischen Struktur erweitert, bei der unkorrelierte Tokens in verschiedenen Stufen allmählich eliminiert werden, was zu einem erheblichen Rückgang der Rechenkosten führt. Wir führen umfangreiche Experimente sowohl für Bilder als auch für Videos durch, bei denen unsere Methode bis zu 1,4-fache Beschleunigung für state-of-the-art Modelle wie DeiT und TimeSformer erreichen kann, wobei weniger als 0,7 % Genauigkeit verloren geht. Noch wichtiger ist jedoch, dass im Gegensatz zu anderen Beschleunigungsansätzen unsere Methode mit beträchtlichen visuellen Beweisen inhärent interpretierbar ist. Dies bringt den visuellen Transformer einem menschlichen Verständnis näher und macht ihn zugleich leichter. Wir zeigen anhand qualitativer und quantitativer Ergebnisse, dass die Interpretierbarkeit, die in unserem Framework natürlich entsteht, die rohe Aufmerksamkeit übertrifft, die vom ursprünglichen visuellen Transformer gelernt wurde, sowie jene von herkömmlichen Interpretationsmethoden generierten. Projektseite: http://people.csail.mit.edu/bpan/ia-red/.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp