vor 2 Monaten

Evo-ViT: Langsamer und schneller Token-Evolution für dynamische Vision-Transformer

Xu, Yifan ; Zhang, Zhijie ; Zhang, Mengdan ; Sheng, Kekai ; Li, Ke ; Dong, Weiming ; Zhang, Liqing ; Xu, Changsheng ; Sun, Xing

Details der Forschungsarbeit anzeigen

Evo-ViT: Langsamer und schneller Token-Evolution für dynamische Vision-Transformer

Abstract

Vision Transformers (ViTs) haben kürzlich eine explosionsartige Beliebtheit erfahren, aber der enorme Rechenaufwand bleibt ein schwerwiegendes Problem. Da die Berechnungskomplexität von ViT quadratisch zur Länge der Eingabe-Sequenz ist, besteht ein gängiges Paradigma zur Reduzierung des Rechenaufwands darin, die Anzahl der Tokens zu verringern. Bestehende Ansätze umfassen strukturierte räumliche Kompression, die durch einen schrittweisen Verkleinerungsprozess große Merkmalskarten komprimiert, und unstrukturiertes Token-Pruning, das redundante Tokens dynamisch entfernt.Allerdings hat das bestehende Token-Pruning zwei wesentliche Einschränkungen: 1) Die durch Pruning verursachte unvollständige räumliche Struktur ist nicht mit der strukturierten räumlichen Kompression vereinbar, die in modernen tiefen und schmalen Transformatoren häufig verwendet wird; 2) Es erfordert in der Regel eine zeitaufwendige Vorabtrainingsphase.Um diese Einschränkungen zu überwinden und den Anwendungsbereich des Token-Prunings zu erweitern, stellen wir Evo-ViT vor, einen selbstmotivierten langsamen-schnellen Token-Evolution-Ansatz für Vision Transformers. Insbesondere führen wir unstrukturierte instanzbezogene Token-Auswahl durch, indem wir die einfache und effektive globale Klassen-Attention nutzen, die Vision Transformers inhärent besitzen. Anschließend schlagen wir vor, informative und uninformativen Tokens mit unterschiedlichen Berechnungspfaden zu aktualisieren, nämlich langsam-schnell Aktualisierung.Da das langsam-schnelle Aktualisierungsmechanismus sowohl die räumliche Struktur als auch den Informationsfluss beibehält, kann Evo-ViT Vanilla-Transformatoren mit flachen und tiefen-schmalen Strukturen bereits von Beginn des Trainingsprozesses beschleunigen. Experimentelle Ergebnisse zeigen, dass unsere Methode den Rechenaufwand von Vision Transformers erheblich reduziert, während sie vergleichbare Leistungen bei der Bildklassifizierung aufrechterhält.