7 个月前

计算机视觉

Jacob Walker Kenneth Marino Abhinav Gupta Martial Hebert

摘要

当前的视频预测方法试图直接在像素空间中生成视频，使用生成对抗网络（GANs）或变分自编码器（VAEs）。然而，由于这些方法试图同时建模所有的结构和场景动态，在不受限制的情况下，它们经常产生难以解释的结果。我们的见解是将预测问题提升到更高的抽象层次进行建模。具体而言，我们利用人体姿态检测器作为免费的监督源，并将视频预测问题分解为两个独立的步骤。首先，我们显式地建模场景中活跃对象——人类——的高层次结构，并使用VAE来建模人体在姿态空间中的可能未来运动。然后，我们将生成的未来姿态作为条件信息输入到GAN中，以预测视频未来的帧在像素空间中的表现。通过使用姿态的结构化空间作为中间表示，我们避开了GAN直接生成视频像素时所面临的问题。通过定量和定性评估，我们证明了我们的方法在视频预测方面优于现有最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

Jacob Walker Kenneth Marino Abhinav Gupta Martial Hebert

摘要

当前的视频预测方法试图直接在像素空间中生成视频，使用生成对抗网络（GANs）或变分自编码器（VAEs）。然而，由于这些方法试图同时建模所有的结构和场景动态，在不受限制的情况下，它们经常产生难以解释的结果。我们的见解是将预测问题提升到更高的抽象层次进行建模。具体而言，我们利用人体姿态检测器作为免费的监督源，并将视频预测问题分解为两个独立的步骤。首先，我们显式地建模场景中活跃对象——人类——的高层次结构，并使用VAE来建模人体在姿态空间中的可能未来运动。然后，我们将生成的未来姿态作为条件信息输入到GAN中，以预测视频未来的帧在像素空间中的表现。通过使用姿态的结构化空间作为中间表示，我们避开了GAN直接生成视频像素时所面临的问题。通过定量和定性评估，我们证明了我们的方法在视频预测方面优于现有最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

姿态预示未来：通过生成姿态预测进行视频预测 | 论文 | HyperAI超神经