HyperAIHyperAI
vor 2 Monaten

Gelernte Schwellenwerte für das Zusammenführen und Kürzen von Tokens in Visionstransformatoren

Bonnaerens, Maxim ; Dambre, Joni
Gelernte Schwellenwerte für das Zusammenführen und Kürzen von Tokens in Visionstransformatoren
Abstract

Visionstransformer haben in den letzten Jahren in einer Vielzahl von Computer-Vision-Aufgaben bemerkenswachen Erfolg gezeigt. Dennoch bleiben ihre hohen Rechenkosten ein wesentlicher Hindernis für ihre praktische Anwendung. Insbesondere ist die Komplexität von Transformer-Modellen quadratisch im Verhältnis zur Anzahl der Eingabetoken. Daher wurden Techniken vorgeschlagen, die die Anzahl der zu verarbeitenden Eingabetoken reduzieren. In dieser Arbeit stellen wir Learned Thresholds Token Merging and Pruning (LTMP) vor, einen neuen Ansatz, der die Stärken sowohl des Token-Mergings als auch des Token-Prunings nutzt. LTMP verwendet gelernte Schwellwertmaskierungsmodule, die dynamisch bestimmen, welche Tokens zusammengefasst und welche entfernt werden sollen. Wir demonstrieren unseren Ansatz durch umfangreiche Experimente mit Visionstransformern auf der Klassifizierungsaufgabe von ImageNet. Unsere Ergebnisse zeigen, dass LTMP über Reduktionsraten hinweg den aktuellen Stand der Technik in Bezug auf Genauigkeit erreicht, während es nur eine einzelne Feinabstimmungsepoch benötigt, was um ein Vielfaches schneller ist als frühere Methoden. Der Quellcode ist unter https://github.com/Mxbonn/ltmp verfügbar.

Gelernte Schwellenwerte für das Zusammenführen und Kürzen von Tokens in Visionstransformatoren | Neueste Forschungsarbeiten | HyperAI