Skalierung von Vision Transformers auf 22 Milliarden Parameter

Die Skalierung von Transformers hat bahnbrechende Fähigkeiten für Sprachmodelle ermöglicht. Derzeit enthalten die größten großen Sprachmodelle (LLMs) mehr als 100 Milliarden Parameter. Vision Transformers (ViTs) haben die gleiche Architektur für Bild- und Videomodellierung eingeführt, jedoch sind diese bisher nicht in vergleichbarem Maße erfolgreich skaliert worden; das größte dichte ViT enthält 4 Milliarden Parameter (Chen et al., 2022). Wir präsentieren ein Rezept für hoch effizientes und stabiles Training eines 22-Milliarden-Parameter-Vision-Transformers (ViT-22B) und führen eine Vielzahl von Experimenten mit dem resultierenden Modell durch. Bei der Bewertung auf Downstream-Aufgaben (oft mit einem leichten linearen Modell auf gefrorenen Features) zeigt ViT-22B eine steigende Leistung mit zunehmender Skalierung. Wir beobachten zudem andere interessante Vorteile der Skalierung, darunter eine verbesserte Balance zwischen Fairness und Leistung, einen Stand der Technik im Einklang mit menschlicher visueller Wahrnehmung hinsichtlich des Form-/Texturverzerrungsproblems und eine erhöhte Robustheit. ViT-22B zeigt das Potenzial für eine "LLM-ähnliche" Skalierung in der Vision und bietet wichtige Schritte in diese Richtung.