vor 8 Monaten

Fuzhao Xue Yukang Chen Dacheng Li Qinghao Hu Ligeng Zhu Xiuyu Li Yunhao Fang Haotian Tang Shang Yang Zhijian Liu

Zusammenfassung

Die Fähigkeit zur Verarbeitung langer Kontexte ist für multimodale Grundmodelle entscheidend. Wir stellen LongVILA vor, eine umfassende Lösung für langkontextuelle Vision-Sprach-Modelle, die System, Modelltraining und Datensatzentwicklung abdeckt. Auf der Systemseite führen wir das erste Multimodale Sequenzparallelismus-System (MM-SP) ein, das langkontextuelles Training und Inferenz ermöglicht und es erlaubt, Trainingslängen von 2 Millionen Kontexten auf 256 GPUs durchzuführen. Das MM-SP-System ist zudem effizient: Es ist im Text-only-Betrieb 2,1- bis 5,7-mal schneller als Ring-Style Sequenzparallelismus und 1,1- bis 1,4-mal schneller als Megatron-LM. Darüber hinaus integriert es sich nahtlos in die Hugging Face Transformers. Für das Modelltraining schlagen wir einen fünfstufigen Pipeline-Prozess vor, der aus Ausrichtung, Vorabtraining, Kontextverlängerung und gemeinsamem überwachtem Feinjustierung von Lang- und Kurzkontext besteht. Was die Datensätze betrifft, bauen wir sorgfältig große visuelle Sprachvorabtrainingsdatensätze sowie Datensätze für lange Videobefehlsausführung auf, um unseren mehrstufigen Trainingsprozess zu unterstützen. Die umfassende Lösung erhöht die machbare Anzahl von Bildern in VILA um den Faktor 128 (von 8 auf 1024 Bilder) und verbessert den Score für lange Videobeschreibungen von 2,00 auf 3,26 (1,6-fache Steigerung), wobei sie eine Genauigkeit von 99,5 % bei Videos mit 1400 Bildern (Kontextlänge von 274k) erreicht. LongVILA-8B zeigt auch innerhalb des VideoMME-Benchmarks eine konsistente Leistungssteigerung bei langen Videos mit zunehmender Anzahl an Bildern.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Fuzhao Xue Yukang Chen Dacheng Li Qinghao Hu Ligeng Zhu Xiuyu Li Yunhao Fang Haotian Tang Shang Yang Zhijian Liu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Fuzhao Xue Yukang Chen Dacheng Li Qinghao Hu Ligeng Zhu Xiuyu Li Yunhao Fang Haotian Tang Shang Yang Zhijian Liu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

LongVILA: Skalierung von Visuellen Sprachmodellen mit Langem Kontext für Lange Videos

Fuzhao Xue Yukang Chen Dacheng Li Qinghao Hu Ligeng Zhu Xiuyu Li Yunhao Fang Haotian Tang Shang Yang Zhijian Liu8 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LongVILA: Skalierung von Visuellen Sprachmodellen mit Langem Kontext für Lange Videos

Fuzhao Xue Yukang Chen Dacheng Li Qinghao Hu Ligeng Zhu Xiuyu Li Yunhao Fang Haotian Tang Shang Yang Zhijian Liu8 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LongVILA: Skalierung von Visuellen Sprachmodellen mit Langem Kontext für Lange Videos

Fuzhao Xue Yukang Chen Dacheng Li Qinghao Hu Ligeng Zhu Xiuyu Li Yunhao Fang Haotian Tang Shang Yang Zhijian Liu8 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Fuzhao Xue Yukang Chen Dacheng Li Qinghao Hu Ligeng Zhu Xiuyu Li Yunhao Fang Haotian Tang Shang Yang Zhijian Liu

Fuzhao Xue Yukang Chen Dacheng Li Qinghao Hu Ligeng Zhu Xiuyu Li Yunhao Fang Haotian Tang Shang Yang Zhijian Liu

Fuzhao Xue Yukang Chen Dacheng Li Qinghao Hu Ligeng Zhu Xiuyu Li Yunhao Fang Haotian Tang Shang Yang Zhijian Liu