HyperAI超神经

自驱动:弥合自回归视频扩散中的训练-测试差距

Huang, Xun ; Li, Zhengqi ; He, Guande ; Zhou, Mingyuan ; Shechtman, Eli
发布日期: 6/11/2025
自驱动:弥合自回归视频扩散中的训练-测试差距
摘要

我们介绍了一种名为自强迫(Self Forcing)的新颖训练范式,适用于自回归视频扩散模型。该方法解决了长期存在的暴露偏差问题,即在推理过程中,基于真实上下文训练的模型必须生成依赖于自身不完美输出的序列。与以往通过真实上下文帧对未来的帧进行去噪的方法不同,自强迫在训练过程中通过使用键值(KV)缓存执行自回归展开,使每一帧的生成都基于之前自生成的输出。这一策略使得可以通过整体损失在视频级别直接评估整个生成序列的质量,而不仅仅是依赖传统的逐帧目标。为了确保训练效率,我们采用了多步扩散模型并结合随机梯度截断策略,有效平衡了计算成本和性能。此外,我们引入了一种滚动KV缓存机制,实现了高效的自回归视频外推。大量实验表明,我们的方法能够在单个GPU上实现亚秒级延迟的实时流视频生成,同时其生成质量与显著较慢且非因果的扩散模型相当甚至超越。项目网站:http://self-forcing.github.io/