HyperAIHyperAI

Command Palette

Search for a command to run...

Gelernte Schwellenwerte für das Zusammenführen und Kürzen von Tokens in Visionstransformatoren

Maxim Bonnaerens Joni Dambre

Zusammenfassung

Visionstransformer haben in den letzten Jahren in einer Vielzahl von Computer-Vision-Aufgaben bemerkenswachen Erfolg gezeigt. Dennoch bleiben ihre hohen Rechenkosten ein wesentlicher Hindernis für ihre praktische Anwendung. Insbesondere ist die Komplexität von Transformer-Modellen quadratisch im Verhältnis zur Anzahl der Eingabetoken. Daher wurden Techniken vorgeschlagen, die die Anzahl der zu verarbeitenden Eingabetoken reduzieren. In dieser Arbeit stellen wir Learned Thresholds Token Merging and Pruning (LTMP) vor, einen neuen Ansatz, der die Stärken sowohl des Token-Mergings als auch des Token-Prunings nutzt. LTMP verwendet gelernte Schwellwertmaskierungsmodule, die dynamisch bestimmen, welche Tokens zusammengefasst und welche entfernt werden sollen. Wir demonstrieren unseren Ansatz durch umfangreiche Experimente mit Visionstransformern auf der Klassifizierungsaufgabe von ImageNet. Unsere Ergebnisse zeigen, dass LTMP über Reduktionsraten hinweg den aktuellen Stand der Technik in Bezug auf Genauigkeit erreicht, während es nur eine einzelne Feinabstimmungsepoch benötigt, was um ein Vielfaches schneller ist als frühere Methoden. Der Quellcode ist unter https://github.com/Mxbonn/ltmp verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp