HyperAIHyperAI
vor 4 Monaten

AdaViT: Adaptive Tokens für effiziente Vision Transformer

Yin, Hongxu ; Vahdat, Arash ; Alvarez, Jose ; Mallya, Arun ; Kautz, Jan ; Molchanov, Pavlo
AdaViT: Adaptive Tokens für effiziente Vision Transformer
Abstract

Wir stellen A-ViT vor, eine Methode, die den Inferenzkosten von Vision Transformers (ViT) für Bilder unterschiedlicher Komplexität anpasst. A-ViT erreicht dies, indem es automatisch die Anzahl der Tokens in Vision Transformers reduziert, die während des Inferenzprozesses im Netzwerk verarbeitet werden. Wir reformulieren die Adaptive Computation Time (ACT) für diese Aufgabe und erweitern das Halten um das Verwerfen redundanter räumlicher Tokens. Die ansprechenden architektonischen Eigenschaften von Vision Transformers ermöglichen es unserem adaptiven Token-Reduktionsmechanismus, die Inferenz zu beschleunigen, ohne die Netzwerkarchitektur oder die Inferenzausstattung zu ändern. Wir zeigen, dass A-ViT keine zusätzlichen Parameter oder Unter-Netzwerke für das Halten benötigt, da wir das Lernen des adaptiven Halten auf den ursprünglichen Netzwerkparametern basieren lassen. Des Weiteren führen wir eine Verteilungsprior-Regularisierung ein, die das Training im Vergleich zu früheren ACT-Ansätzen stabilisiert. Bei der Bildklassifizierungsaufgabe (ImageNet1K) demonstrieren wir, dass unser vorgeschlagenes A-ViT eine hohe Effizienz bei der Filterung informativer räumlicher Merkmale und dem Reduzieren des Gesamtcomputings aufweist. Die vorgestellte Methode erhöht die Durchsatzrate von DeiT-Tiny um 62 % und von DeiT-Small um 38 % mit nur einem Genauigkeitsverlust von 0,3 % und übertreffen damit frühere Ansätze deutlich. Projektseite: https://a-vit.github.io/