7 天前
MAGVIT:掩码生成视频Transformer
Lijun Yu, Yong Cheng, Kihyuk Sohn, José Lezama, Han Zhang, Huiwen Chang, Alexander G. Hauptmann, Ming-Hsuan Yang, Yuan Hao, Irfan Essa, Lu Jiang

摘要
我们提出了一种名为MAsked Generative VIdeo Transformer(MAGVIT)的统一模型,用于解决多种视频生成任务。为实现这一目标,我们引入了一种3D分词器,将视频量化为时空视觉标记(spatial-temporal visual tokens),并提出了一种针对掩码视频标记的嵌入方法,以支持多任务学习。通过大量实验,我们验证了MAGVIT在生成质量、计算效率和任务灵活性方面的卓越表现。实验结果表明:(i)MAGVIT在多项前沿视频生成基准测试中表现优异,特别是在具有挑战性的Kinetics-600数据集上,取得了目前公开报道的最佳FVD(Fréchet Video Distance)分数;(ii)在推理速度方面,MAGVIT相比扩散模型提升了两个数量级,相比自回归模型提升了60倍;(iii)单一MAGVIT模型可支持十种不同的生成任务,并具备跨不同视觉领域视频的强泛化能力。项目源代码与训练好的模型将公开发布于 https://magvit.cs.cmu.edu。