8 个月前

统一多模态

计算机视觉

Ting-Chun Wang Ming-Yu Liu Jun-Yan Zhu Guilin Liu Andrew Tao Jan Kautz Bryan Catanzaro

摘要

我们研究了视频到视频合成的问题，其目标是从输入源视频（例如，一系列语义分割掩码）学习映射函数，生成能够精确描绘源视频内容的输出光逼真视频。尽管其图像对应问题——图像到图像合成问题——是一个热门话题，但视频到视频合成问题在文献中较少被探讨。如果不理解时间动态特性，直接将现有的图像合成方法应用于输入视频通常会导致视觉质量较低且时间上不连贯的输出视频。在本文中，我们在生成对抗网络框架下提出了一种新颖的视频到视频合成方法。通过精心设计的生成器和判别器架构，并结合时空对抗目标，我们在多种输入格式（包括分割掩码、草图和姿态）上实现了高分辨率、光逼真且时间连贯的视频结果。多个基准测试实验表明，我们的方法相比强大的基线模型具有显著优势。特别是，我们的模型能够生成长达30秒、分辨率为2K的街道场景视频，这大大推进了当前视频合成领域的技术水平。最后，我们将该方法应用于未来视频预测，超越了几种最先进的竞争系统。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

统一多模态

计算机视觉

Ting-Chun Wang Ming-Yu Liu Jun-Yan Zhu Guilin Liu Andrew Tao Jan Kautz Bryan Catanzaro

摘要

我们研究了视频到视频合成的问题，其目标是从输入源视频（例如，一系列语义分割掩码）学习映射函数，生成能够精确描绘源视频内容的输出光逼真视频。尽管其图像对应问题——图像到图像合成问题——是一个热门话题，但视频到视频合成问题在文献中较少被探讨。如果不理解时间动态特性，直接将现有的图像合成方法应用于输入视频通常会导致视觉质量较低且时间上不连贯的输出视频。在本文中，我们在生成对抗网络框架下提出了一种新颖的视频到视频合成方法。通过精心设计的生成器和判别器架构，并结合时空对抗目标，我们在多种输入格式（包括分割掩码、草图和姿态）上实现了高分辨率、光逼真且时间连贯的视频结果。多个基准测试实验表明，我们的方法相比强大的基线模型具有显著优势。特别是，我们的模型能够生成长达30秒、分辨率为2K的街道场景视频，这大大推进了当前视频合成领域的技术水平。最后，我们将该方法应用于未来视频预测，超越了几种最先进的竞争系统。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供