vor 8 Monaten

Zusammenfassung

Vision Transformer (ViT) ist als bedeutender Grundbaustein für Computer Vision hervorgetreten. Um effizientere ViTs zu erreichen, reduzieren jüngste Arbeiten die quadratischen Kosten der Selbst-Aufmerksamkeitsschicht durch das Pruning oder Fusing von redundanten Tokens. Allerdings mussten diese Ansätze mit dem Geschwindigkeit-Genauigkeit-Kompromiss umgehen, der durch den Informationsverlust verursacht wurde. In dieser Arbeit argumentieren wir, dass das Token-Fusing verschiedene Beziehungen zwischen den Tokens berücksichtigen muss, um den Informationsverlust zu minimieren. Wir schlagen eine Multi-Kriterien-Token-Fusion (MCTF) vor, die die Tokens basierend auf mehreren Kriterien (z.B., Ähnlichkeit, Informationsgehalt und Größe der gefuseden Tokens) schrittweise zusammenführt. Darüber hinaus nutzen wir die one-step-ahead-Aufmerksamkeit, einen verbesserten Ansatz zur Erfassung des Informationsgehalts der Tokens. Durch das Training des Modells mit MCTF unter Verwendung einer Token-Reduktionskonsistenz erreichen wir den besten Geschwindigkeit-Genauigkeit-Kompromiss bei der Bildklassifizierung (ImageNet1K). Experimentelle Ergebnisse zeigen, dass MCTF konsistent die früheren Reduktionsmethoden übertrifft, sei es mit oder ohne Training. Insbesondere reduzieren DeiT-T und DeiT-S mit MCTF die FLOPs um etwa 44%, während sie gleichzeitig die Leistung des Basismodells verbessern (+0,5 % und +0,3 %). Wir demonstrieren zudem die Anwendbarkeit von MCTF in verschiedenen Vision Transformers (z.B., T2T-ViT, LV-ViT), wobei mindestens eine 31%ige Beschleunigung ohne Leistungsverlust erzielt wird. Der Quellcode ist unter https://github.com/mlvlab/MCTF verfügbar.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Sanghyeok Lee Joonmyung Choi Hyunwoo J. Kim

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Sanghyeok Lee Joonmyung Choi Hyunwoo J. Kim

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Mehrziel-Token-Fusion mit One-step-ahead-Aufmerksamkeit für effiziente Vision-Transformer

Sanghyeok Lee Joonmyung Choi Hyunwoo J. Kim

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Mehrziel-Token-Fusion mit One-step-ahead-Aufmerksamkeit für effiziente Vision-Transformer

Sanghyeok Lee Joonmyung Choi Hyunwoo J. Kim

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Mehrziel-Token-Fusion mit One-step-ahead-Aufmerksamkeit für effiziente Vision-Transformer

Sanghyeok Lee Joonmyung Choi Hyunwoo J. Kim

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters