HyperAIHyperAI

Command Palette

Search for a command to run...

Token Merging: Ihr ViT, aber schneller

Daniel Bolya Cheng-Yang Fu Xiaoliang Dai Peizhao Zhang Christoph Feichtenhofer Judy Hoffman

Zusammenfassung

Wir stellen Token Merging (ToMe) vor, eine einfache Methode, um die Durchsatzleistung bestehender ViT-Modelle zu erhöhen, ohne erneutes Training durchführen zu müssen. ToMe kombiniert schrittweise ähnliche Tokens in einem Transformer mittels eines allgemeinen und leichten Matching-Algorithmus, der so schnell wie Pruning ist, aber genauer. Aus dem Bestand können ToMe die Durchsatzleistung von state-of-the-art ViT-L @ 512 und ViT-H @ 518 Modellen auf Bildern verdoppeln und die Durchsatzleistung von ViT-L auf Videos um das 2,2-fache steigern, wobei in jedem Fall nur ein Genauigkeitsverlust von 0,2-0,3 % auftritt. ToMe kann auch während des Trainings leicht angewendet werden, was in der Praxis die Trainingsgeschwindigkeit für MAE Feinabstimmung auf Videos bis zu 2-fach beschleunigt. Das Training mit ToMe verringert den Genauigkeitsverlust weiter, sodass die Durchsatzleistung von ViT-B auf Audio bei nur einem mAP-Verlust von 0,4 % verdoppelt wird. Qualitativ finden wir heraus, dass ToMe Objektteile in einen einzelnen Token zusammenführt, sogar über mehrere Video Frames hinweg. Insgesamt sind Genauigkeit und Geschwindigkeit von ToMe wettbewerbsfähig im Vergleich zum state-of-the-art bei Bildern, Videos und Audio.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp