Command Palette
Search for a command to run...
Mehrziel-Token-Fusion mit One-step-ahead-Aufmerksamkeit für effiziente Vision-Transformer
Mehrziel-Token-Fusion mit One-step-ahead-Aufmerksamkeit für effiziente Vision-Transformer
Sanghyeok Lee Joonmyung Choi Hyunwoo J. Kim
Zusammenfassung
Vision Transformer (ViT) ist als bedeutender Grundbaustein für Computer Vision hervorgetreten. Um effizientere ViTs zu erreichen, reduzieren jüngste Arbeiten die quadratischen Kosten der Selbst-Aufmerksamkeitsschicht durch das Pruning oder Fusing von redundanten Tokens. Allerdings mussten diese Ansätze mit dem Geschwindigkeit-Genauigkeit-Kompromiss umgehen, der durch den Informationsverlust verursacht wurde. In dieser Arbeit argumentieren wir, dass das Token-Fusing verschiedene Beziehungen zwischen den Tokens berücksichtigen muss, um den Informationsverlust zu minimieren. Wir schlagen eine Multi-Kriterien-Token-Fusion (MCTF) vor, die die Tokens basierend auf mehreren Kriterien (z.B., Ähnlichkeit, Informationsgehalt und Größe der gefuseden Tokens) schrittweise zusammenführt. Darüber hinaus nutzen wir die one-step-ahead-Aufmerksamkeit, einen verbesserten Ansatz zur Erfassung des Informationsgehalts der Tokens. Durch das Training des Modells mit MCTF unter Verwendung einer Token-Reduktionskonsistenz erreichen wir den besten Geschwindigkeit-Genauigkeit-Kompromiss bei der Bildklassifizierung (ImageNet1K). Experimentelle Ergebnisse zeigen, dass MCTF konsistent die früheren Reduktionsmethoden übertrifft, sei es mit oder ohne Training. Insbesondere reduzieren DeiT-T und DeiT-S mit MCTF die FLOPs um etwa 44%, während sie gleichzeitig die Leistung des Basismodells verbessern (+0,5 % und +0,3 %). Wir demonstrieren zudem die Anwendbarkeit von MCTF in verschiedenen Vision Transformers (z.B., T2T-ViT, LV-ViT), wobei mindestens eine 31%ige Beschleunigung ohne Leistungsverlust erzielt wird. Der Quellcode ist unter https://github.com/mlvlab/MCTF verfügbar.