Command Palette
Search for a command to run...
Justin Cui Jie Wu Ming Li Tao Yang Xiaojie Li Rui Wang Andrew Bai Yuanhao Ban Cho-Jui Hsieh

摘要
扩散模型已彻底革新了图像与视频生成技术,实现了前所未有的视觉质量。然而,其对Transformer架构的依赖带来了极为高昂的计算成本,尤其是在将生成能力扩展至长视频时尤为显著。近期研究尝试采用自回归形式进行长视频生成,通常通过从短时域双向教师模型中进行知识蒸馏实现。然而,由于教师模型本身无法生成长视频,学生模型在超出其训练时长范围后,往往会出现明显的质量下降,这主要源于连续潜在空间中误差的不断累积。本文提出一种简单而有效的方法,可在无需长视频教师监督或在长视频数据集上重新训练的前提下,显著缓解长时域视频生成中的质量退化问题。我们的方法核心在于利用教师模型所蕴含的丰富知识,通过从自生成的长视频中采样片段,为学生模型提供引导。该方法在将视频长度扩展至教师模型能力的20倍的同时,仍能保持良好的时序一致性,避免了传统方法常见的过曝问题与误差累积现象,且无需像以往方法那样重新计算重叠帧。在计算资源扩展的情况下,我们的方法可生成长达4分15秒的视频,相当于我们基础模型位置编码所支持最大跨度的99.9%,且比基线模型的生成长度超过50倍。在标准基准测试以及我们提出的改进型基准测试中,实验结果表明,我们的方法在保真度与时序一致性方面均显著优于基线方法。我们的长时域视频演示可访问:https://self-forcing-plus-plus.github.io/