2 个月前

深度视频生成、预测与人体动作序列补全

Cai, Haoye ; Bai, Chunyan ; Tai, Yu-Wing ; Tang, Chi-Keung
深度视频生成、预测与人体动作序列补全
摘要

当前深度学习在视频生成方面的成果有限,而关于视频预测的研究也仅有少数初步结果,至于视频补全则尚未取得任何显著进展。这主要是由于这三个问题本身固有的严重不适定性所致。本文专注于人体动作视频,提出了一种通用的两阶段深度框架,用于生成不受限制或具有任意数量约束条件的人体动作视频,该框架统一解决了三个问题:无需输入帧的视频生成、基于前几帧的视频预测以及基于首尾帧的视频补全。为了使问题变得可解,在第一阶段我们训练了一个深度生成模型,该模型可以从随机噪声中生成人体姿态序列。在第二阶段,我们训练了一个骨骼到图像的网络,该网络可以利用第一阶段生成的完整人体姿态序列来生成人体动作视频。通过引入两阶段策略,我们在绕过原始不适定问题的同时首次实现了高质量且持续时间更长的视频生成、预测和补全结果。我们通过定量和定性评估展示了我们的两阶段方法在视频生成、预测和补全方面优于现有最先进方法。我们的视频演示结果可以在以下网址查看:https://iamacewhite.github.io/supp/index.html