HyperAIHyperAI
vor 2 Monaten

Token Merging: Ihr ViT, aber schneller

Bolya, Daniel ; Fu, Cheng-Yang ; Dai, Xiaoliang ; Zhang, Peizhao ; Feichtenhofer, Christoph ; Hoffman, Judy
Token Merging: Ihr ViT, aber schneller
Abstract

Wir stellen Token Merging (ToMe) vor, eine einfache Methode, um die Durchsatzleistung bestehender ViT-Modelle zu erhöhen, ohne erneutes Training durchführen zu müssen. ToMe kombiniert schrittweise ähnliche Tokens in einem Transformer mittels eines allgemeinen und leichten Matching-Algorithmus, der so schnell wie Pruning ist, aber genauer. Aus dem Bestand können ToMe die Durchsatzleistung von state-of-the-art ViT-L @ 512 und ViT-H @ 518 Modellen auf Bildern verdoppeln und die Durchsatzleistung von ViT-L auf Videos um das 2,2-fache steigern, wobei in jedem Fall nur ein Genauigkeitsverlust von 0,2-0,3 % auftritt. ToMe kann auch während des Trainings leicht angewendet werden, was in der Praxis die Trainingsgeschwindigkeit für MAE Feinabstimmung auf Videos bis zu 2-fach beschleunigt. Das Training mit ToMe verringert den Genauigkeitsverlust weiter, sodass die Durchsatzleistung von ViT-B auf Audio bei nur einem mAP-Verlust von 0,4 % verdoppelt wird. Qualitativ finden wir heraus, dass ToMe Objektteile in einen einzelnen Token zusammenführt, sogar über mehrere Video Frames hinweg. Insgesamt sind Genauigkeit und Geschwindigkeit von ToMe wettbewerbsfähig im Vergleich zum state-of-the-art bei Bildern, Videos und Audio.

Token Merging: Ihr ViT, aber schneller | Neueste Forschungsarbeiten | HyperAI