HyperAIHyperAI
vor 2 Monaten

LongVILA: Skalierung von Visuellen Sprachmodellen mit Langem Kontext für Lange Videos

Fuzhao Xue, Yukang Chen, Dacheng Li, Qinghao Hu, Ligeng Zhu, Xiuyu Li, Yunhao Fang, Haotian Tang, Shang Yang, Zhijian Liu, Ethan He, Hongxu Yin, Pavlo Molchanov, Jan Kautz, Linxi Fan, Yuke Zhu, Yao Lu, Song Han
LongVILA: Skalierung von Visuellen Sprachmodellen mit Langem Kontext für Lange Videos
Abstract

Die Fähigkeit zur Verarbeitung langer Kontexte ist für multimodale Grundmodelle entscheidend. Wir stellen LongVILA vor, eine umfassende Lösung für langkontextuelle Vision-Sprach-Modelle, die System, Modelltraining und Datensatzentwicklung abdeckt. Auf der Systemseite führen wir das erste Multimodale Sequenzparallelismus-System (MM-SP) ein, das langkontextuelles Training und Inferenz ermöglicht und es erlaubt, Trainingslängen von 2 Millionen Kontexten auf 256 GPUs durchzuführen. Das MM-SP-System ist zudem effizient: Es ist im Text-only-Betrieb 2,1- bis 5,7-mal schneller als Ring-Style Sequenzparallelismus und 1,1- bis 1,4-mal schneller als Megatron-LM. Darüber hinaus integriert es sich nahtlos in die Hugging Face Transformers. Für das Modelltraining schlagen wir einen fünfstufigen Pipeline-Prozess vor, der aus Ausrichtung, Vorabtraining, Kontextverlängerung und gemeinsamem überwachtem Feinjustierung von Lang- und Kurzkontext besteht. Was die Datensätze betrifft, bauen wir sorgfältig große visuelle Sprachvorabtrainingsdatensätze sowie Datensätze für lange Videobefehlsausführung auf, um unseren mehrstufigen Trainingsprozess zu unterstützen. Die umfassende Lösung erhöht die machbare Anzahl von Bildern in VILA um den Faktor 128 (von 8 auf 1024 Bilder) und verbessert den Score für lange Videobeschreibungen von 2,00 auf 3,26 (1,6-fache Steigerung), wobei sie eine Genauigkeit von 99,5 % bei Videos mit 1400 Bildern (Kontextlänge von 274k) erreicht. LongVILA-8B zeigt auch innerhalb des VideoMME-Benchmarks eine konsistente Leistungssteigerung bei langen Videos mit zunehmender Anzahl an Bildern.

LongVILA: Skalierung von Visuellen Sprachmodellen mit Langem Kontext für Lange Videos | Neueste Forschungsarbeiten | HyperAI