HyperAIHyperAI
vor 2 Monaten

Adaptiver spärrender ViT: Auf dem Weg zu lernfähiger adaptiver Token-Pruning durch vollständige Nutzung der Selbst-Attention

Liu, Xiangcheng ; Wu, Tianyi ; Guo, Guodong
Adaptiver spärrender ViT: Auf dem Weg zu lernfähiger adaptiver Token-Pruning durch vollständige Nutzung der Selbst-Attention
Abstract

Der Vision Transformer (ViT) ist als neues Paradigma in der Computer Vision hervorgetreten und zeigt ausgezeichnete Leistungen, geht aber mit hohen Rechenaufwand einher. Die Bildtoken-Pruning-Methode ist einer der Hauptansätze zur Kompression von ViTs, da die Komplexität quadratisch zur Anzahl der Tokens steigt und viele Tokens, die nur Hintergrundregionen enthalten, nicht wirklich zur endgültigen Vorhersage beitragen. Bestehende Arbeiten basieren entweder auf zusätzlichen Modulen, um die Wichtigkeit einzelner Tokens zu bewerten, oder sie implementieren eine feste Pruning-Strategie für verschiedene Eingabefälle. In dieser Arbeit schlagen wir einen adaptiven Sparsen-Token-Pruning-Rahmen vor, der einen minimalen Aufwand erfordert. Insbesondere schlagen wir zunächst eine kostengünstige Mechanik vor, bei der die Klassifikationsaufmerksamkeit nach dem Gewicht der Wichtigkeit des Aufmerksamkeitskopfes bewertet wird. Dann werden lernfähige Parameter als Schwellenwerte eingefügt, um informative Tokens von unwichtigen zu unterscheiden. Durch den Vergleich von Token-Aufmerksamkeitsbewertungen und Schwellenwerten können wir nutzlose Tokens hierarchisch entfernen und somit die Inferenz beschleunigen. Die lernfähigen Schwellenwerte werden im budgetbasierten Training optimiert, um Genauigkeit und Komplexität auszugleichen und entsprechende Pruning-Konfigurationen für verschiedene Eingabefälle durchzuführen. Umfangreiche Experimente zeigen die Effektivität unseres Ansatzes. Unsere Methode erhöht die Durchsatzrate von DeiT-S um 50 % und verursacht nur einen Rückgang von 0,2 % in der Top-1-Genauigkeit, was einen besseren Kompromiss zwischen Genauigkeit und Latenz gegenüber früheren Methoden erreicht.

Adaptiver spärrender ViT: Auf dem Weg zu lernfähiger adaptiver Token-Pruning durch vollständige Nutzung der Selbst-Attention | Neueste Forschungsarbeiten | HyperAI