HyperAIHyperAI

Command Palette

Search for a command to run...

Evo-ViT: Langsamer und schneller Token-Evolution für dynamische Vision-Transformer

Yifan Xu extsuperscript1,3,4* Zhijie Zhang extsuperscript2,3* Mengdan Zhang extsuperscript3 Kekai Sheng extsuperscript3 Ke Li extsuperscript3 Weiming Dong extsuperscript1,4† Liqing Zhang extsuperscript2 Changsheng Xu extsuperscript1,4 Xing Sun extsuperscript3†

Zusammenfassung

Vision Transformers (ViTs) haben kürzlich eine explosionsartige Beliebtheit erfahren, aber der enorme Rechenaufwand bleibt ein schwerwiegendes Problem. Da die Berechnungskomplexität von ViT quadratisch zur Länge der Eingabe-Sequenz ist, besteht ein gängiges Paradigma zur Reduzierung des Rechenaufwands darin, die Anzahl der Tokens zu verringern. Bestehende Ansätze umfassen strukturierte räumliche Kompression, die durch einen schrittweisen Verkleinerungsprozess große Merkmalskarten komprimiert, und unstrukturiertes Token-Pruning, das redundante Tokens dynamisch entfernt.Allerdings hat das bestehende Token-Pruning zwei wesentliche Einschränkungen: 1) Die durch Pruning verursachte unvollständige räumliche Struktur ist nicht mit der strukturierten räumlichen Kompression vereinbar, die in modernen tiefen und schmalen Transformatoren häufig verwendet wird; 2) Es erfordert in der Regel eine zeitaufwendige Vorabtrainingsphase.Um diese Einschränkungen zu überwinden und den Anwendungsbereich des Token-Prunings zu erweitern, stellen wir Evo-ViT vor, einen selbstmotivierten langsamen-schnellen Token-Evolution-Ansatz für Vision Transformers. Insbesondere führen wir unstrukturierte instanzbezogene Token-Auswahl durch, indem wir die einfache und effektive globale Klassen-Attention nutzen, die Vision Transformers inhärent besitzen. Anschließend schlagen wir vor, informative und uninformativen Tokens mit unterschiedlichen Berechnungspfaden zu aktualisieren, nämlich langsam-schnell Aktualisierung.Da das langsam-schnelle Aktualisierungsmechanismus sowohl die räumliche Struktur als auch den Informationsfluss beibehält, kann Evo-ViT Vanilla-Transformatoren mit flachen und tiefen-schmalen Strukturen bereits von Beginn des Trainingsprozesses beschleunigen. Experimentelle Ergebnisse zeigen, dass unsere Methode den Rechenaufwand von Vision Transformers erheblich reduziert, während sie vergleichbare Leistungen bei der Bildklassifizierung aufrechterhält.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp