2 个月前
视频到视频合成
Ting-Chun Wang; Ming-Yu Liu; Jun-Yan Zhu; Guilin Liu; Andrew Tao; Jan Kautz; Bryan Catanzaro

摘要
我们研究了视频到视频合成的问题,其目标是从输入源视频(例如,一系列语义分割掩码)学习映射函数,生成能够精确描绘源视频内容的输出光逼真视频。尽管其图像对应问题——图像到图像合成问题——是一个热门话题,但视频到视频合成问题在文献中较少被探讨。如果不理解时间动态特性,直接将现有的图像合成方法应用于输入视频通常会导致视觉质量较低且时间上不连贯的输出视频。在本文中,我们在生成对抗网络框架下提出了一种新颖的视频到视频合成方法。通过精心设计的生成器和判别器架构,并结合时空对抗目标,我们在多种输入格式(包括分割掩码、草图和姿态)上实现了高分辨率、光逼真且时间连贯的视频结果。多个基准测试实验表明,我们的方法相比强大的基线模型具有显著优势。特别是,我们的模型能够生成长达30秒、分辨率为2K的街道场景视频,这大大推进了当前视频合成领域的技术水平。最后,我们将该方法应用于未来视频预测,超越了几种最先进的竞争系统。