2 个月前

LongVILA:扩展长上下文视觉语言模型以处理长视频

Fuzhao Xue, Yukang Chen, Dacheng Li, Qinghao Hu, Ligeng Zhu, Xiuyu Li, Yunhao Fang, Haotian Tang, Shang Yang, Zhijian Liu, Ethan He, Hongxu Yin, Pavlo Molchanov, Jan Kautz, Linxi Fan, Yuke Zhu, Yao Lu, Song Han
LongVILA:扩展长上下文视觉语言模型以处理长视频
摘要

长上下文能力对于多模态基础模型至关重要。我们介绍了LongVILA,这是一种针对长上下文视觉语言模型的全栈解决方案,涵盖系统、模型训练和数据集开发。在系统方面,我们提出了首个多模态序列并行(MM-SP)系统,该系统支持长上下文的训练和推理,能够在256个GPU上进行200万上下文长度的训练。此外,MM-SP在纯文本设置下比环形序列并行快2.1倍至5.7倍,比Megatron-LM快1.1倍至1.4倍。它还能够无缝集成到Hugging Face Transformers中。在模型训练方面,我们提出了一种包含对齐、预训练、上下文扩展和长短联合监督微调五个阶段的管道。关于数据集,我们精心构建了大规模的视觉语言预训练数据集和长视频指令跟随数据集,以支持我们的多阶段训练过程。全栈解决方案将VILA的可行帧数扩展了128倍(从8帧到1024帧),并将长视频字幕评分从2.00提高到3.26(提高了1.6倍),在1400帧视频(274k上下文长度)中实现了99.5%的准确率。LongVILA-8B还在VideoMME基准测试中展示了随着视频帧数增加而持续提升的性能表现。