HyperAIHyperAI
vor 17 Tagen

Skalierung von Vision Transformers

Xiaohua Zhai, Alexander Kolesnikov, Neil Houlsby, Lucas Beyer
Skalierung von Vision Transformers
Abstract

Aufmerksamkeitsbasierte neuronale Netze wie der Vision Transformer (ViT) haben in jüngster Zeit state-of-the-art-Ergebnisse auf zahlreichen Benchmarks im Bereich des maschinellen Sehens erzielt. Die Skalierung ist ein entscheidender Faktor für herausragende Leistungen; daher ist das Verständnis der Skalierungseigenschaften eines Modells ein Schlüssel für die effektive Gestaltung zukünftiger Generationen. Während die Skalierungsgesetze für Transformer-Sprachmodelle bereits untersucht wurden, ist unklar, wie Vision Transformers skaliert werden. Um dies zu klären, skalieren wir ViT-Modelle und -Daten sowohl nach oben als auch nach unten und charakterisieren die Beziehungen zwischen Fehlerquote, Datenmenge und Rechenleistung. Unterwegs verfeinern wir die Architektur und das Training von ViT, wodurch der Speicherverbrauch reduziert und die Genauigkeit der resultierenden Modelle erhöht wird. Als Ergebnis gelingt es uns, ein ViT-Modell mit zwei Milliarden Parametern erfolgreich zu trainieren, das eine neue state-of-the-art-Leistung auf ImageNet mit 90,45 % Top-1-Accuracy erreicht. Das Modell zeigt zudem hervorragende Leistung bei Few-Shot-Transfer, beispielsweise erzielt es auf ImageNet mit nur zehn Beispielen pro Klasse eine Top-1-Accuracy von 84,86 %.

Skalierung von Vision Transformers | Neueste Forschungsarbeiten | HyperAI