自回归对抗后训练在实时交互视频生成中的应用
Shanchuan Lin, Ceyuan Yang, Hao He, Jianwen Jiang, Yuxi Ren, Xin Xia, Yang Zhao, Xuefeng Xiao, Lu Jiang
发布日期: 6/12/2025

摘要
现有的大规模视频生成模型计算量巨大,阻碍了其在实时和交互式应用中的采用。在这项工作中,我们提出了一种自回归对抗性后训练(AAPT)方法,将预训练的潜在视频扩散模型转化为实时、交互式的视频生成器。我们的模型通过单次神经函数评估(1NFE)逐帧自回归生成潜在帧。该模型可以实时向用户流传输结果,并接收用户的交互响应作为控制信号来生成下一帧潜在图像。与现有方法不同,我们的方法探索了对抗性训练作为一种有效的自回归生成范式。这不仅使我们能够设计出一种更高效的一步生成架构,同时充分利用KV缓存,还能够在学生强制训练模式下对模型进行训练,这种模式已被证明在长时间视频生成过程中有效减少误差累积。我们的实验表明,80亿参数的模型可以在单个H100上以736x416分辨率实现24帧每秒的实时流传输视频生成,或者在8个H100上以1280x720分辨率生成长达一分钟(1440帧)的视频。访问我们的研究网站:https://seaweed-apt.com/2