
摘要
高效流式视频生成对于模拟交互式与动态世界至关重要。现有方法通过滑动窗口注意力机制,将少步长视频扩散模型进行知识蒸馏,并利用初始帧作为“汇点令牌”(sink tokens)以维持注意力性能并减少误差累积。然而,视频帧对这些静态令牌产生过度依赖,导致初始帧被重复复制,运动动态性显著减弱。为解决这一问题,我们提出一种名为奖励强制(Reward Forcing)的新框架,包含两项关键设计。首先,我们提出EMA-Sink机制:该机制维护一组固定大小的令牌,其初始值来源于初始帧,并在这些令牌随滑动窗口移出时,通过指数移动平均(Exponential Moving Average, EMA)融合被替换的令牌,实现持续更新。该方法无需额外计算开销,使EMA-Sink令牌既能捕捉长期上下文信息,又能反映近期动态变化,有效避免初始帧的重复复制,同时保障长时程生成的一致性。其次,为更有效地从教师模型中蒸馏运动动态信息,我们提出一种新型的奖励分布匹配蒸馏(Rewarded Distribution Matching Distillation, Re-DMD)。传统分布匹配方法对所有训练样本赋予同等权重,限制了模型对动态内容的优先学习能力。相比之下,Re-DMD通过视觉-语言模型对样本的动态程度进行评分,优先选择动态性更高的样本进行训练,并引导模型输出分布向高奖励区域偏移。该策略显著提升了生成视频的运动质量,同时保持了数据保真度。我们通过定量与定性实验验证了该方法的有效性。结果表明,Reward Forcing 在标准基准测试中达到当前最优性能,并可在单张H100 GPU上实现高达23.1 FPS的高质量流式视频生成,显著提升了实时生成效率与视觉质量。