vor 2 Monaten

Skalierung von Vision Transformers auf 22 Milliarden Parameter

Mostafa Dehghani; Josip Djolonga; Basil Mustafa; Piotr Padlewski; Jonathan Heek; Justin Gilmer; Andreas Steiner; Mathilde Caron; Robert Geirhos; Ibrahim Alabdulmohsin; Rodolphe Jenatton; Lucas Beyer; Michael Tschannen; Anurag Arnab; Xiao Wang; Carlos Riquelme; Matthias Minderer; Joan Puigcerver; Utku Evci; Manoj Kumar; Sjoerd van Steenkiste; Gamaleldin F. Elsayed; Aravindh Mahendran; Fisher Yu; Avital Oliver; Fantine Huot; Jasmijn Bastings; Mark Patrick Collier; Alexey Gritsenko; Vighnesh Birodkar; Cristina Vasconcelos; Yi Tay; Thomas Mensink; Alexander Kolesnikov; Filip Pavetić; Dustin Tran; Thomas Kipf; Mario Lučić; Xiaohua Zhai; Daniel Keysers; Jeremiah Harmsen; Neil Houlsby

Details der Forschungsarbeit anzeigen

Skalierung von Vision Transformers auf 22 Milliarden Parameter

Abstract

Die Skalierung von Transformers hat bahnbrechende Fähigkeiten für Sprachmodelle ermöglicht. Derzeit enthalten die größten großen Sprachmodelle (LLMs) mehr als 100 Milliarden Parameter. Vision Transformers (ViTs) haben die gleiche Architektur für Bild- und Videomodellierung eingeführt, jedoch sind diese bisher nicht in vergleichbarem Maße erfolgreich skaliert worden; das größte dichte ViT enthält 4 Milliarden Parameter (Chen et al., 2022). Wir präsentieren ein Rezept für hoch effizientes und stabiles Training eines 22-Milliarden-Parameter-Vision-Transformers (ViT-22B) und führen eine Vielzahl von Experimenten mit dem resultierenden Modell durch. Bei der Bewertung auf Downstream-Aufgaben (oft mit einem leichten linearen Modell auf gefrorenen Features) zeigt ViT-22B eine steigende Leistung mit zunehmender Skalierung. Wir beobachten zudem andere interessante Vorteile der Skalierung, darunter eine verbesserte Balance zwischen Fairness und Leistung, einen Stand der Technik im Einklang mit menschlicher visueller Wahrnehmung hinsichtlich des Form-/Texturverzerrungsproblems und eine erhöhte Robustheit. ViT-22B zeigt das Potenzial für eine "LLM-ähnliche" Skalierung in der Vision und bietet wichtige Schritte in diese Richtung.