SPViT: Beschleunigung von Vision Transformers durch Soft Token Pruning

Kürzlich hat der Vision Transformer (ViT) kontinuierlich neue Meilensteine im Bereich der Computer Vision gesetzt, während die hohen Rechen- und Speicherkosten seine Verbreitung in der industriellen Produktion erschweren. Die Scherung, ein traditionelles Paradigma zur Modellkompression für Hardware-Effizienz, wird weit verbreitet in verschiedenen DNN-Architekturen angewendet. Dennoch bleibt es unklar, wie man eine spezifische Scherung am ViT-Struktur durchführen kann. Indem wir drei wesentliche Aspekte berücksichtigen – die strukturellen Merkmale, das interne Datenmuster von ViTs und die zugehörige Bereitstellung an Edge-Geräten – nutzen wir die Sparsamkeit der Eingabetoken und schlagen einen rechenbewussten Soft-Scherungsrahmen vor, der sowohl auf flachen als auch auf CNN-artigen Transformer-Strukturen wie dem Pooling-basierten ViT (PiT) eingerichtet werden kann. Konkreter gestaltet haben wir einen dynamischen, aufmerksamkeitsbasierten Multi-Head-Token-Selektor, der ein leichtgewichtiges Modul für adaptives instanzbezogenes Tokenauswahl ist. Weiter führen wir eine Soft-Scherungstechnik ein, die die weniger informativen Tokens, die vom Selektormodul generiert werden, in ein Pakettoken integriert, das an nachfolgenden Berechnungen teilnimmt anstatt vollständig verworfen zu werden. Unser Rahmen ist durch unsere vorgeschlagene rechenbewusste Trainingsstrategie an den Kompromiss zwischen Genauigkeit und Rechenrestriktionen spezifischer Edge-Geräte gebunden. Experimentelle Ergebnisse zeigen, dass unser Rahmen die Rechengeschwindigkeit von ViTs erheblich reduziert und gleichzeitig vergleichbare Leistungen bei der Bildklassifikation aufrechterhält. Darüber hinaus kann unser Rahmen sicherstellen, dass das identifizierte Modell den Ressourcenspezifikationen von Mobilgeräten und FPGAs entspricht und sogar die Echtzeit-Ausführung von DeiT-T auf mobilen Plattformen ermöglicht. Zum Beispiel reduziert unsere Methode die Latenz von DeiT-T auf 26 ms (26% bis 41% besser als bestehende Arbeiten), wobei sie gleichzeitig eine Top-1-Genauigkeit von 0,25% bis 4% höher als bei ImageNet erreicht.