vor 2 Monaten

IA-RED$^2$: Interpretierbarkeitsbewusste Redundanzreduzierung für Visionstransformer

Pan, Bowen ; Panda, Rameswar ; Jiang, Yifan ; Wang, Zhangyang ; Feris, Rogerio ; Oliva, Aude

Abstract

Das auf Selbst-Aufmerksamkeit basierende Modell, der Transformer, wird in letzter Zeit zum führenden Backbone im Bereich der Computer Vision. Trotz des beeindruckenden Erfolgs von Transformatoren in verschiedenen visuellen Aufgaben leiden sie noch immer unter hohen Rechen- und intensiven Speicherkosten. Um diese Einschränkung zu beheben, präsentiert dieser Artikel ein Interpretabilität-bewusstes Redundanzreduktionsframework (IA-RED$^2$). Wir beginnen damit, eine große Menge an redundanten Berechnungen zu beobachten, die hauptsächlich auf unkorrelierten Eingangspatches verwendet werden, und führen dann ein interpretierbares Modul ein, das diese redundanten Patches dynamisch und elegant entfernt. Dieses neuartige Framework wird anschließend zu einer hierarchischen Struktur erweitert, bei der unkorrelierte Tokens in verschiedenen Stufen allmählich eliminiert werden, was zu einem erheblichen Rückgang der Rechenkosten führt. Wir führen umfangreiche Experimente sowohl für Bilder als auch für Videos durch, bei denen unsere Methode bis zu 1,4-fache Beschleunigung für state-of-the-art Modelle wie DeiT und TimeSformer erreichen kann, wobei weniger als 0,7 % Genauigkeit verloren geht. Noch wichtiger ist jedoch, dass im Gegensatz zu anderen Beschleunigungsansätzen unsere Methode mit beträchtlichen visuellen Beweisen inhärent interpretierbar ist. Dies bringt den visuellen Transformer einem menschlichen Verständnis näher und macht ihn zugleich leichter. Wir zeigen anhand qualitativer und quantitativer Ergebnisse, dass die Interpretierbarkeit, die in unserem Framework natürlich entsteht, die rohe Aufmerksamkeit übertrifft, die vom ursprünglichen visuellen Transformer gelernt wurde, sowie jene von herkömmlichen Interpretationsmethoden generierten. Projektseite: http://people.csail.mit.edu/bpan/ia-red/.