HyperAIHyperAI

Command Palette

Search for a command to run...

Dateneffizientes Training von Bild-Transformern und Destillation durch Aufmerksamkeit

Hugo Touvron Matthieu Cord Matthijs Douze Francisco Massa Alexandre Sablayrolles Hervé Jégou

Zusammenfassung

Kürzlich wurde gezeigt, dass reine Aufmerksamkeitsbasierte Neuronale Netze Aufgaben der Bildverarbeitung wie die Bildklassifizierung lösen können. Allerdings werden diese visuellen Transformer mit Hunderten von Millionen von Bildern unter Verwendung einer teuren Infrastruktur vortrainiert, was ihre Verbreitung einschränkt.In dieser Arbeit erzeugen wir einen wettbewerbsfähigen konvolutionfreien Transformer durch das Training nur auf ImageNet. Wir trainieren sie auf einem einzelnen Computer in weniger als drei Tagen. Unser Referenz-Visions-Transformer (86 Mio. Parameter) erreicht eine Top-1-Akkuranz von 83,1 % (Einzel-Crop-Evaluierung) auf ImageNet ohne externe Daten.Von noch größerer Bedeutung ist die Einführung einer für Transformer spezifischen Lehrer-Schüler-Strategie. Diese basiert auf einem Distillations-Token, das sicherstellt, dass der Schüler durch Aufmerksamkeit vom Lehrer lernt. Wir zeigen die Vorteile dieses tokenbasierten Distillationsprozesses, insbesondere wenn ein ConvNet als Lehrer verwendet wird. Dies ermöglicht es uns, Ergebnisse zu erzielen, die mit ConvNets wettbewerbsfähig sind, sowohl für ImageNet (wo wir bis zu 85,2 % Akkuranz erreichen) als auch bei der Übertragung auf andere Aufgaben. Wir teilen unser Code und unsere Modelle.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp