Command Palette
Search for a command to run...
Junhao Cheng Liang Hou Xin Tao Jing Liao

摘要
尽管语言模型在诸多实际应用中已展现出显著影响力,视频生成仍主要局限于娱乐领域。受视频固有优势的启发——即其能够直观呈现仅靠语言难以表达的物理世界信息(例如,仅通过文字指导他人打领带将极为困难),我们识别出一个尚未被充分挖掘的机会:将视频拓展为下一事件预测(Next-Event Prediction, NEP)任务的一种新型回答模态,该任务被形式化为视频下一事件预测(Video-Next-Event Prediction, VNEP)。传统的NEP任务以一段视频及一个程序性或预测性问题作为输入,输出为对下一事件的文本预测;而VNEP则要求生成动态的视频作为回答。这一从“描述”到“展示”的转变,为程序性学习与创造性探索提供了更直观、更具个性化的响应方式。然而,现有模型在该任务上仍面临巨大挑战,因其需同时具备对多模态输入的理解能力、基于指令的推理能力,以及生成在视觉与语义上均保持一致的视频内容的能力。为应对上述挑战,我们提出VANS(Video-Next-Event Prediction with Alignment via Reinforcement Learning),该模型通过强化学习机制,实现视觉-语言模型(Vision-Language Model, VLM)与视频扩散模型(Video Diffusion Model, VDM)之间的对齐,以支持VNEP任务。VANS的核心是其提出的联合GRPO(Joint-GRPO)算法,该算法协同调度VLM与VDM,使其协同工作如同一个整体。在共享奖励机制的驱动下,该方法优化VLM生成既准确又易于视觉化呈现的描述文本,同时引导VDM生成与这些文本及输入视觉上下文高度一致的视频内容。为支持该学习过程,我们构建了VANS-Data-100K,一个专为VNEP任务设计的高质量数据集。在程序性与预测性基准测试中的实验结果表明,VANS在视频事件预测与视觉生成两个方面均达到了当前最优性能。相关代码已开源,地址为:https://github.com/KlingTeam/VANS。