Dateneffizientes Training von Bild-Transformern und Destillation durch Aufmerksamkeit

Kürzlich wurde gezeigt, dass reine Aufmerksamkeitsbasierte Neuronale Netze Aufgaben der Bildverarbeitung wie die Bildklassifizierung lösen können. Allerdings werden diese visuellen Transformer mit Hunderten von Millionen von Bildern unter Verwendung einer teuren Infrastruktur vortrainiert, was ihre Verbreitung einschränkt.In dieser Arbeit erzeugen wir einen wettbewerbsfähigen konvolutionfreien Transformer durch das Training nur auf ImageNet. Wir trainieren sie auf einem einzelnen Computer in weniger als drei Tagen. Unser Referenz-Visions-Transformer (86 Mio. Parameter) erreicht eine Top-1-Akkuranz von 83,1 % (Einzel-Crop-Evaluierung) auf ImageNet ohne externe Daten.Von noch größerer Bedeutung ist die Einführung einer für Transformer spezifischen Lehrer-Schüler-Strategie. Diese basiert auf einem Distillations-Token, das sicherstellt, dass der Schüler durch Aufmerksamkeit vom Lehrer lernt. Wir zeigen die Vorteile dieses tokenbasierten Distillationsprozesses, insbesondere wenn ein ConvNet als Lehrer verwendet wird. Dies ermöglicht es uns, Ergebnisse zu erzielen, die mit ConvNets wettbewerbsfähig sind, sowohl für ImageNet (wo wir bis zu 85,2 % Akkuranz erreichen) als auch bei der Übertragung auf andere Aufgaben. Wir teilen unser Code und unsere Modelle.