HyperAIHyperAI

Command Palette

Search for a command to run...

Skalierung von Vision Transformers auf 22 Milliarden Parameter

Chen et al.

Zusammenfassung

Die Skalierung von Transformers hat bahnbrechende Fähigkeiten für Sprachmodelle ermöglicht. Derzeit enthalten die größten großen Sprachmodelle (LLMs) mehr als 100 Milliarden Parameter. Vision Transformers (ViTs) haben die gleiche Architektur für Bild- und Videomodellierung eingeführt, jedoch sind diese bisher nicht in vergleichbarem Maße erfolgreich skaliert worden; das größte dichte ViT enthält 4 Milliarden Parameter (Chen et al., 2022). Wir präsentieren ein Rezept für hoch effizientes und stabiles Training eines 22-Milliarden-Parameter-Vision-Transformers (ViT-22B) und führen eine Vielzahl von Experimenten mit dem resultierenden Modell durch. Bei der Bewertung auf Downstream-Aufgaben (oft mit einem leichten linearen Modell auf gefrorenen Features) zeigt ViT-22B eine steigende Leistung mit zunehmender Skalierung. Wir beobachten zudem andere interessante Vorteile der Skalierung, darunter eine verbesserte Balance zwischen Fairness und Leistung, einen Stand der Technik im Einklang mit menschlicher visueller Wahrnehmung hinsichtlich des Form-/Texturverzerrungsproblems und eine erhöhte Robustheit. ViT-22B zeigt das Potenzial für eine "LLM-ähnliche" Skalierung in der Vision und bietet wichtige Schritte in diese Richtung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp