2 个月前

姿态预示未来:通过生成姿态预测进行视频预测

Jacob Walker; Kenneth Marino; Abhinav Gupta; Martial Hebert
姿态预示未来:通过生成姿态预测进行视频预测
摘要

当前的视频预测方法试图直接在像素空间中生成视频,使用生成对抗网络(GANs)或变分自编码器(VAEs)。然而,由于这些方法试图同时建模所有的结构和场景动态,在不受限制的情况下,它们经常产生难以解释的结果。我们的见解是将预测问题提升到更高的抽象层次进行建模。具体而言,我们利用人体姿态检测器作为免费的监督源,并将视频预测问题分解为两个独立的步骤。首先,我们显式地建模场景中活跃对象——人类——的高层次结构,并使用VAE来建模人体在姿态空间中的可能未来运动。然后,我们将生成的未来姿态作为条件信息输入到GAN中,以预测视频未来的帧在像素空间中的表现。通过使用姿态的结构化空间作为中间表示,我们避开了GAN直接生成视频像素时所面临的问题。通过定量和定性评估,我们证明了我们的方法在视频预测方面优于现有最先进方法。

姿态预示未来:通过生成姿态预测进行视频预测 | 最新论文 | HyperAI超神经