HyperAIHyperAI

Command Palette

Search for a command to run...

DynamicViT: Effiziente Visionstransformer mit dynamischer Token-Verdünnung

Rao Yongming ; Zhao Wenliang ; Liu Benlin ; Lu Jiwen ; Zhou Jie ; Hsieh Cho-Jui

Zusammenfassung

Aufmerksamkeit ist in Visionstransformern spärlich. Wir beobachten, dass die endgültige Vorhersage in Visionstransformern nur auf einer Teilmenge der informativsten Tokens basiert, was für eine genaue Bilderkennung ausreichend ist. Aufgrund dieser Beobachtung schlagen wir ein dynamisches Token-Sparsifizierungsframework vor, um redundante Tokens basierend auf der Eingabe progressively und dynamisch zu reduzieren. Insbesondere entwickeln wir ein leichtgewichtiges Vorhersagemodul, um den Wichtigkeitswert jedes Tokens anhand der aktuellen Merkmale zu schätzen. Dieses Modul wird in verschiedenen Schichten integriert, um redundante Tokens hierarchisch zu reduzieren. Um das Vorhersagemodul end-to-end zu optimieren, schlagen wir eine Aufmerksamkeitsmaskierungsstrategie vor, die es ermöglicht, einen Token differenzierbar zu reduzieren, indem seine Interaktionen mit anderen Tokens blockiert werden. Dank der Natur des Selbst-Aufmerksamkeitsmechanismus sind die unstrukturierten spärlichen Tokens weiterhin hardwarefreundlich, was unser Framework erleichtert, tatsächlich eine Geschwindigkeitssteigerung zu erzielen. Durch hierarchische Reduktion von 66 % der Eingabetokens verringert unsere Methode die FLOPs (floating point operations) um 31 % bis 37 % und verbessert die Durchsatzrate um über 40 %, wobei der Genauigkeitsverlust bei verschiedenen Visionstransformern innerhalb von 0,5 % liegt. Mit dem dynamischen Token-Sparsifizierungsframework können DynamicViT-Modelle sehr wettbewerbsfähige Komplexitäts-/Genauigkeits-Handelsspannen im Vergleich zu den neuesten CNNs (Convolutional Neural Networks) und Visionstransformern auf ImageNet erreichen. Der Quellcode ist unter https://github.com/raoyongming/DynamicViT verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp