vor 17 Tagen

Vollständig auf Aufmerksamkeit basierende Netzwerke mit selbstentstehender Token-Benennung

Bingyin Zhao, Zhiding Yu, Shiyi Lan, Yutao Cheng, Anima Anandkumar, Yingjie Lao, Jose M. Alvarez

Abstract

Neuere Studien zeigen, dass Vision-Transformer (ViT)-Modelle gegenüber Szenarien außerhalb der Verteilung (out-of-distribution) robust sind. Insbesondere erreicht die Fully Attentional Network (FAN), eine Familie von ViT-Backbones, eine state-of-the-art Robustheit. In diesem Paper überprüfen wir erneut die FAN-Modelle und verbessern deren Vortraining durch einen selbstentstehenden Token-Labeling-(STL)-Rahmen. Unser Ansatz basiert auf einem zweistufigen Trainingsframework: Zunächst trainieren wir einen FAN-Token-Labeler (FAN-TL), um semantisch sinnvolle Patch-Token-Labels zu generieren, gefolgt von einem Trainingsstadium für ein FAN-Studentmodell, das sowohl die Token-Labels als auch die ursprünglichen Klassenlabels nutzt. Mit dem vorgeschlagenen STL-Rahmen erreicht unser bestes Modell auf Basis von FAN-L-Hybrid (77,3 Mio. Parameter) eine Top-1-Accuracy von 84,8 % und eine mCE von 42,1 % auf ImageNet-1K und ImageNet-C und erreicht damit eine neue state-of-the-art-Leistung für ImageNet-A (46,1 %) und ImageNet-R (56,6 %), ohne zusätzliche Daten zu verwenden, und übertrifft das ursprüngliche FAN-Modell deutlich. Der vorgeschlagene Rahmen zeigt zudem eine signifikant verbesserte Leistung bei nachgeschalteten Aufgaben wie der semantischen Segmentierung, wobei die Robustheit bis zu 1,7 Prozentpunkte über dem Gegenstückmodell liegt. Der Code ist unter https://github.com/NVlabs/STL verfügbar.