Command Palette
Search for a command to run...
Jihwan Kim Junoh Kang Jinyoung Choi Bohyung Han

摘要
我们提出了一种基于预训练扩散模型的新型推理技术,用于实现文本条件下的视频生成。我们的方法称为FIFO-Diffusion,其概念上具备在无需训练的情况下生成无限长视频的能力。这一目标通过迭代执行对角去噪(diagonal denoising)实现:该方法以队列形式并行处理一系列连续帧,并逐步增加噪声水平;在每一步中,队列头部输出一个完全去噪的帧,同时在队列尾部加入一个全新的随机噪声帧。然而,对角去噪也是一把双刃剑:靠近队列尾部的帧可以通过前向引用(forward referencing)利用更干净的前序帧,但这种策略会导致训练与推理阶段之间的不一致。为此,我们引入了潜在空间分块(latent partitioning)以缩小训练与推理之间的差距,并提出前瞻去噪(lookahead denoising)以有效利用前向引用的优势。我们在现有的文本到视频生成基线模型上验证了所提方法的显著效果与良好性能。
代码仓库
jjihwan/FIFO-Diffusion_public
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-generation-on-ucf-101 | FIFO-Diffusion | FVD128: 596.64 Inception Score: 74.44 |