
摘要
我们介绍了一种全栈框架,该框架利用强化学习扩展了视觉-语言模型(VLMs)在长视频中的推理能力。为了解决长视频推理的独特挑战,我们集成了三个关键组件:(1)一个大规模数据集LongVideo-Reason,包含52,000个跨体育、游戏和博客等多种领域的长视频问答对,每个问答对都附有高质量的推理注释;(2)一个两阶段训练管道,通过链式思维监督微调(CoT-SFT)和强化学习(RL)扩展VLMs的能力;以及(3)一种名为多模态强化序列并行性(MR-SP)的长视频RL训练基础设施,该系统结合了序列并行性和基于vLLM的引擎,专门针对长视频设计,使用缓存的视频嵌入以实现高效的前向传播和预填充。在实验中,LongVILA-R1-7B在长视频问答基准测试如VideoMME上表现出色。它不仅优于Video-R1-7B,在我们的LongVideo-Reason-eval基准测试中,还在时间推理、目标与目的推理、空间推理和情节推理方面与Gemini-1.5-Pro持平。值得注意的是,我们的MR-SP系统在长视频RL训练中实现了最高2.1倍的速度提升。随着输入视频帧数的增加,LongVILA-R1展示了持续的性能改进。LongVILA-R1标志着VLMs在长视频推理方面迈出了坚实的一步。此外,我们发布了支持多种模态(视频、文本和音频)、多种模型(VILA系列和Qwen系列),甚至图像和视频生成模型的训练系统供公众使用。在一个A100节点(8个GPU)上,该系统支持长达一小时的视频进行RL训练(例如3,600帧/约256,000个标记)。