7 个月前

计算机视觉

计算机视觉

Mohammad Babaeizadeh Chelsea Finn Dumitru Erhan Roy Campbell Sergey Levine

摘要

在现实世界环境中进行未来预测，尤其是基于原始感官观测（如图像）的预测，极具挑战性。现实世界的事件往往是随机且不可预测的，而自然图像的高度维度和复杂性要求预测模型对自然界有深入的理解。许多现有方法通过简化环境假设来解决这一问题。一个常见的假设是结果是确定性的，只有一个合理的未来。然而，在具有随机动态的真实世界环境中，这种假设可能导致低质量的预测。本文中，我们开发了一种随机变分视频预测（SV2P）方法，该方法为每个潜在变量样本预测一个不同的可能未来。据我们所知，我们的模型是首个能够为真实世界视频提供有效的随机多帧预测的方法。我们在多个真实世界数据集上展示了所提出方法在预测视频详细未来帧方面的能力，这些数据集既包括无动作场景也包括有动作条件的场景。我们发现，与没有随机性的相同模型以及其他随机视频预测方法相比，所提出的SV2P方法显著提高了视频预测的质量。我们的SV2P实现将在论文发表后开源。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

计算机视觉

Mohammad Babaeizadeh Chelsea Finn Dumitru Erhan Roy Campbell Sergey Levine

摘要

在现实世界环境中进行未来预测，尤其是基于原始感官观测（如图像）的预测，极具挑战性。现实世界的事件往往是随机且不可预测的，而自然图像的高度维度和复杂性要求预测模型对自然界有深入的理解。许多现有方法通过简化环境假设来解决这一问题。一个常见的假设是结果是确定性的，只有一个合理的未来。然而，在具有随机动态的真实世界环境中，这种假设可能导致低质量的预测。本文中，我们开发了一种随机变分视频预测（SV2P）方法，该方法为每个潜在变量样本预测一个不同的可能未来。据我们所知，我们的模型是首个能够为真实世界视频提供有效的随机多帧预测的方法。我们在多个真实世界数据集上展示了所提出方法在预测视频详细未来帧方面的能力，这些数据集既包括无动作场景也包括有动作条件的场景。我们发现，与没有随机性的相同模型以及其他随机视频预测方法相比，所提出的SV2P方法显著提高了视频预测的质量。我们的SV2P实现将在论文发表后开源。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供