HyperAIHyperAI
vor 2 Monaten

Mehrziel-Token-Fusion mit One-step-ahead-Aufmerksamkeit für effiziente Vision-Transformer

Lee, Sanghyeok ; Choi, Joonmyung ; Kim, Hyunwoo J.
Mehrziel-Token-Fusion mit One-step-ahead-Aufmerksamkeit für effiziente Vision-Transformer
Abstract

Vision Transformer (ViT) ist als bedeutender Grundbaustein für Computer Vision hervorgetreten. Um effizientere ViTs zu erreichen, reduzieren jüngste Arbeiten die quadratischen Kosten der Selbst-Aufmerksamkeitsschicht durch das Pruning oder Fusing von redundanten Tokens. Allerdings mussten diese Ansätze mit dem Geschwindigkeit-Genauigkeit-Kompromiss umgehen, der durch den Informationsverlust verursacht wurde. In dieser Arbeit argumentieren wir, dass das Token-Fusing verschiedene Beziehungen zwischen den Tokens berücksichtigen muss, um den Informationsverlust zu minimieren. Wir schlagen eine Multi-Kriterien-Token-Fusion (MCTF) vor, die die Tokens basierend auf mehreren Kriterien (z.B., Ähnlichkeit, Informationsgehalt und Größe der gefuseden Tokens) schrittweise zusammenführt. Darüber hinaus nutzen wir die one-step-ahead-Aufmerksamkeit, einen verbesserten Ansatz zur Erfassung des Informationsgehalts der Tokens. Durch das Training des Modells mit MCTF unter Verwendung einer Token-Reduktionskonsistenz erreichen wir den besten Geschwindigkeit-Genauigkeit-Kompromiss bei der Bildklassifizierung (ImageNet1K). Experimentelle Ergebnisse zeigen, dass MCTF konsistent die früheren Reduktionsmethoden übertrifft, sei es mit oder ohne Training. Insbesondere reduzieren DeiT-T und DeiT-S mit MCTF die FLOPs um etwa 44%, während sie gleichzeitig die Leistung des Basismodells verbessern (+0,5 % und +0,3 %). Wir demonstrieren zudem die Anwendbarkeit von MCTF in verschiedenen Vision Transformers (z.B., T2T-ViT, LV-ViT), wobei mindestens eine 31%ige Beschleunigung ohne Leistungsverlust erzielt wird. Der Quellcode ist unter https://github.com/mlvlab/MCTF verfügbar.

Mehrziel-Token-Fusion mit One-step-ahead-Aufmerksamkeit für effiziente Vision-Transformer | Neueste Forschungsarbeiten | HyperAI