HyperAIHyperAI

Command Palette

Search for a command to run...

LongVILA: Skalierung von Visuellen Sprachmodellen mit Langem Kontext für Lange Videos

Zusammenfassung

Die Fähigkeit zur Verarbeitung langer Kontexte ist für multimodale Grundmodelle entscheidend. Wir stellen LongVILA vor, eine umfassende Lösung für langkontextuelle Vision-Sprach-Modelle, die System, Modelltraining und Datensatzentwicklung abdeckt. Auf der Systemseite führen wir das erste Multimodale Sequenzparallelismus-System (MM-SP) ein, das langkontextuelles Training und Inferenz ermöglicht und es erlaubt, Trainingslängen von 2 Millionen Kontexten auf 256 GPUs durchzuführen. Das MM-SP-System ist zudem effizient: Es ist im Text-only-Betrieb 2,1- bis 5,7-mal schneller als Ring-Style Sequenzparallelismus und 1,1- bis 1,4-mal schneller als Megatron-LM. Darüber hinaus integriert es sich nahtlos in die Hugging Face Transformers. Für das Modelltraining schlagen wir einen fünfstufigen Pipeline-Prozess vor, der aus Ausrichtung, Vorabtraining, Kontextverlängerung und gemeinsamem überwachtem Feinjustierung von Lang- und Kurzkontext besteht. Was die Datensätze betrifft, bauen wir sorgfältig große visuelle Sprachvorabtrainingsdatensätze sowie Datensätze für lange Videobefehlsausführung auf, um unseren mehrstufigen Trainingsprozess zu unterstützen. Die umfassende Lösung erhöht die machbare Anzahl von Bildern in VILA um den Faktor 128 (von 8 auf 1024 Bilder) und verbessert den Score für lange Videobeschreibungen von 2,00 auf 3,26 (1,6-fache Steigerung), wobei sie eine Genauigkeit von 99,5 % bei Videos mit 1400 Bildern (Kontextlänge von 274k) erreicht. LongVILA-8B zeigt auch innerhalb des VideoMME-Benchmarks eine konsistente Leistungssteigerung bei langen Videos mit zunehmender Anzahl an Bildern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp