DynamicViT: Effiziente Visionstransformer mit dynamischer Token-Verdünnung

Aufmerksamkeit ist in Visionstransformern spärlich. Wir beobachten, dass die endgültige Vorhersage in Visionstransformern nur auf einer Teilmenge der informativsten Tokens basiert, was für eine genaue Bilderkennung ausreichend ist. Aufgrund dieser Beobachtung schlagen wir ein dynamisches Token-Sparsifizierungsframework vor, um redundante Tokens basierend auf der Eingabe progressively und dynamisch zu reduzieren. Insbesondere entwickeln wir ein leichtgewichtiges Vorhersagemodul, um den Wichtigkeitswert jedes Tokens anhand der aktuellen Merkmale zu schätzen. Dieses Modul wird in verschiedenen Schichten integriert, um redundante Tokens hierarchisch zu reduzieren. Um das Vorhersagemodul end-to-end zu optimieren, schlagen wir eine Aufmerksamkeitsmaskierungsstrategie vor, die es ermöglicht, einen Token differenzierbar zu reduzieren, indem seine Interaktionen mit anderen Tokens blockiert werden. Dank der Natur des Selbst-Aufmerksamkeitsmechanismus sind die unstrukturierten spärlichen Tokens weiterhin hardwarefreundlich, was unser Framework erleichtert, tatsächlich eine Geschwindigkeitssteigerung zu erzielen. Durch hierarchische Reduktion von 66 % der Eingabetokens verringert unsere Methode die FLOPs (floating point operations) um 31 % bis 37 % und verbessert die Durchsatzrate um über 40 %, wobei der Genauigkeitsverlust bei verschiedenen Visionstransformern innerhalb von 0,5 % liegt. Mit dem dynamischen Token-Sparsifizierungsframework können DynamicViT-Modelle sehr wettbewerbsfähige Komplexitäts-/Genauigkeits-Handelsspannen im Vergleich zu den neuesten CNNs (Convolutional Neural Networks) und Visionstransformern auf ImageNet erreichen. Der Quellcode ist unter https://github.com/raoyongming/DynamicViT verfügbar.