摘要

长上下文能力对于多模态基础模型至关重要。我们提出 LongVILA，这是一个面向长上下文视觉-语言模型的全栈解决方案，涵盖系统架构、模型训练以及数据集构建。在系统层面，我们首次引入了多模态序列并行（Multi-Modal Sequence Parallelism, MM-SP）系统，实现了长上下文的训练与推理，可在 256 块 GPU 上支持长达 200 万 token 的上下文长度训练。MM-SP 具有出色的效率，在纯文本场景下，其速度比环形序列并行（Ring-Style Sequence Parallelism）快 2.1 倍至 5.7 倍，比 Megatron-LM 快 1.1 倍至 1.4 倍，并且可无缝集成至 Hugging Face Transformers 生态。在模型训练方面，我们设计了一个五阶段训练流程，包括对齐、预训练、上下文扩展，以及长短上下文联合监督微调。在数据集方面，我们精心构建了大规模视觉-语言预训练数据集和长视频指令跟随数据集，以支持上述多阶段训练过程。该全栈解决方案将 VILA 模型可处理的帧数提升了 128 倍（从 8 帧扩展至 1024 帧），并将长视频字幕生成任务的得分从 2.00 提升至 3.26（提升 1.6 倍）。在包含 1400 帧（上下文长度达 27.4 万）的“大海捞针”任务中，LongVILA 达到了 99.5% 的准确率。此外，LongVILA-8B 在 VideoMME 基准测试中，随着视频帧数的增加，其在长视频任务上的性能也表现出持续提升。

源 PDF