4 个月前

统一多模态

计算机视觉

Cai Haoye Bai Chunyan Tai Yu-Wing Tang Chi-Keung

摘要

当前，视频生成领域的深度学习研究结果仍较为有限，视频预测方面仅有少量初步成果，而视频补全方面则尚无相关显著进展。这主要源于上述三类问题固有的严重病态性。本文聚焦于人体动作视频，提出一种通用的两阶段深度学习框架，可在无约束或任意数量约束条件下生成人体动作视频，统一解决三类问题：在无输入帧情况下生成视频、在仅给定前几帧时进行视频预测，以及在给定首尾帧时完成视频补全。为使问题可解，在第一阶段，我们训练一个深度生成模型，从随机噪声中生成人体姿态序列；在第二阶段，训练一个骨骼到图像的网络，用于根据第一阶段生成的完整人体姿态序列生成人体动作视频。通过引入两阶段策略，我们有效规避了原始病态问题，首次实现了时长更长、质量更高的视频生成、预测与补全结果。我们通过定量与定性评估表明，所提两阶段方法在视频生成、预测及补全任务上均优于现有最先进方法。视频生成效果演示可访问：https://iamacewhite.github.io/supp/index.html

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

4 个月前

统一多模态

计算机视觉

Cai Haoye Bai Chunyan Tai Yu-Wing Tang Chi-Keung

摘要

当前，视频生成领域的深度学习研究结果仍较为有限，视频预测方面仅有少量初步成果，而视频补全方面则尚无相关显著进展。这主要源于上述三类问题固有的严重病态性。本文聚焦于人体动作视频，提出一种通用的两阶段深度学习框架，可在无约束或任意数量约束条件下生成人体动作视频，统一解决三类问题：在无输入帧情况下生成视频、在仅给定前几帧时进行视频预测，以及在给定首尾帧时完成视频补全。为使问题可解，在第一阶段，我们训练一个深度生成模型，从随机噪声中生成人体姿态序列；在第二阶段，训练一个骨骼到图像的网络，用于根据第一阶段生成的完整人体姿态序列生成人体动作视频。通过引入两阶段策略，我们有效规避了原始病态问题，首次实现了时长更长、质量更高的视频生成、预测与补全结果。我们通过定量与定性评估表明，所提两阶段方法在视频生成、预测及补全任务上均优于现有最先进方法。视频生成效果演示可访问：https://iamacewhite.github.io/supp/index.html

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供