HyperAIHyperAI

Command Palette

Search for a command to run...

Mehrziel-Token-Fusion mit One-step-ahead-Aufmerksamkeit für effiziente Vision-Transformer

Sanghyeok Lee Joonmyung Choi Hyunwoo J. Kim

Zusammenfassung

Vision Transformer (ViT) ist als bedeutender Grundbaustein für Computer Vision hervorgetreten. Um effizientere ViTs zu erreichen, reduzieren jüngste Arbeiten die quadratischen Kosten der Selbst-Aufmerksamkeitsschicht durch das Pruning oder Fusing von redundanten Tokens. Allerdings mussten diese Ansätze mit dem Geschwindigkeit-Genauigkeit-Kompromiss umgehen, der durch den Informationsverlust verursacht wurde. In dieser Arbeit argumentieren wir, dass das Token-Fusing verschiedene Beziehungen zwischen den Tokens berücksichtigen muss, um den Informationsverlust zu minimieren. Wir schlagen eine Multi-Kriterien-Token-Fusion (MCTF) vor, die die Tokens basierend auf mehreren Kriterien (z.B., Ähnlichkeit, Informationsgehalt und Größe der gefuseden Tokens) schrittweise zusammenführt. Darüber hinaus nutzen wir die one-step-ahead-Aufmerksamkeit, einen verbesserten Ansatz zur Erfassung des Informationsgehalts der Tokens. Durch das Training des Modells mit MCTF unter Verwendung einer Token-Reduktionskonsistenz erreichen wir den besten Geschwindigkeit-Genauigkeit-Kompromiss bei der Bildklassifizierung (ImageNet1K). Experimentelle Ergebnisse zeigen, dass MCTF konsistent die früheren Reduktionsmethoden übertrifft, sei es mit oder ohne Training. Insbesondere reduzieren DeiT-T und DeiT-S mit MCTF die FLOPs um etwa 44%, während sie gleichzeitig die Leistung des Basismodells verbessern (+0,5 % und +0,3 %). Wir demonstrieren zudem die Anwendbarkeit von MCTF in verschiedenen Vision Transformers (z.B., T2T-ViT, LV-ViT), wobei mindestens eine 31%ige Beschleunigung ohne Leistungsverlust erzielt wird. Der Quellcode ist unter https://github.com/mlvlab/MCTF verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Mehrziel-Token-Fusion mit One-step-ahead-Aufmerksamkeit für effiziente Vision-Transformer | Paper | HyperAI