1 个月前

将强化学习应用于长视频

Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han
将强化学习应用于长视频
摘要

我们介绍了一种全栈框架,该框架利用强化学习扩展了视觉-语言模型(VLMs)在长视频中的推理能力。为了解决长视频推理的独特挑战,我们集成了三个关键组件:(1)一个大规模数据集LongVideo-Reason,包含52,000个跨体育、游戏和博客等多种领域的长视频问答对,每个问答对都附有高质量的推理注释;(2)一个两阶段训练管道,通过链式思维监督微调(CoT-SFT)和强化学习(RL)扩展VLMs的能力;以及(3)一种名为多模态强化序列并行性(MR-SP)的长视频RL训练基础设施,该系统结合了序列并行性和基于vLLM的引擎,专门针对长视频设计,使用缓存的视频嵌入以实现高效的前向传播和预填充。在实验中,LongVILA-R1-7B在长视频问答基准测试如VideoMME上表现出色。它不仅优于Video-R1-7B,在我们的LongVideo-Reason-eval基准测试中,还在时间推理、目标与目的推理、空间推理和情节推理方面与Gemini-1.5-Pro持平。值得注意的是,我们的MR-SP系统在长视频RL训练中实现了最高2.1倍的速度提升。随着输入视频帧数的增加,LongVILA-R1展示了持续的性能改进。LongVILA-R1标志着VLMs在长视频推理方面迈出了坚实的一步。此外,我们发布了支持多种模态(视频、文本和音频)、多种模型(VILA系列和Qwen系列),甚至图像和视频生成模型的训练系统供公众使用。在一个A100节点(8个GPU)上,该系统支持长达一小时的视频进行RL训练(例如3,600帧/约256,000个标记)。