HyperAIHyperAI

Command Palette

Search for a command to run...

Vollständig auf Aufmerksamkeit basierende Netzwerke mit selbstentstehender Token-Benennung

Bingyin Zhao Zhiding Yu Shiyi Lan Yutao Cheng Anima Anandkumar Yingjie Lao Jose M. Alvarez

Zusammenfassung

Neuere Studien zeigen, dass Vision-Transformer (ViT)-Modelle gegenüber Szenarien außerhalb der Verteilung (out-of-distribution) robust sind. Insbesondere erreicht die Fully Attentional Network (FAN), eine Familie von ViT-Backbones, eine state-of-the-art Robustheit. In diesem Paper überprüfen wir erneut die FAN-Modelle und verbessern deren Vortraining durch einen selbstentstehenden Token-Labeling-(STL)-Rahmen. Unser Ansatz basiert auf einem zweistufigen Trainingsframework: Zunächst trainieren wir einen FAN-Token-Labeler (FAN-TL), um semantisch sinnvolle Patch-Token-Labels zu generieren, gefolgt von einem Trainingsstadium für ein FAN-Studentmodell, das sowohl die Token-Labels als auch die ursprünglichen Klassenlabels nutzt. Mit dem vorgeschlagenen STL-Rahmen erreicht unser bestes Modell auf Basis von FAN-L-Hybrid (77,3 Mio. Parameter) eine Top-1-Accuracy von 84,8 % und eine mCE von 42,1 % auf ImageNet-1K und ImageNet-C und erreicht damit eine neue state-of-the-art-Leistung für ImageNet-A (46,1 %) und ImageNet-R (56,6 %), ohne zusätzliche Daten zu verwenden, und übertrifft das ursprüngliche FAN-Modell deutlich. Der vorgeschlagene Rahmen zeigt zudem eine signifikant verbesserte Leistung bei nachgeschalteten Aufgaben wie der semantischen Segmentierung, wobei die Robustheit bis zu 1,7 Prozentpunkte über dem Gegenstückmodell liegt. Der Code ist unter https://github.com/NVlabs/STL verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp