HyperAIHyperAI

Command Palette

Search for a command to run...

从视频中无监督学习物体结构和动态

Matthias Minderer Chen Sun Ruben Villegas Forrester Cole Kevin Murphy Honglak Lee

摘要

从视频中无监督地提取和预测物体结构及动态是机器学习领域的一大挑战。为了解决这一挑战,我们采用了基于关键点的图像表示方法,并学习了关键点的随机动力学模型。未来帧通过关键点和参考帧进行重建。通过对关键点坐标空间中的动态建模,我们实现了稳定的学习过程,并避免了像素空间中误差的累积。我们的方法在像素级视频预测以及需要对象级别运动动力学理解的下游任务上均优于非结构化的表示方法。我们在多个数据集上评估了我们的模型,包括多智能体体育数据集、Human3.6M 数据集以及基于 DeepMind 控制套件连续控制任务的数据集。空间结构化的表示方法在一系列与运动相关的任务(如物体跟踪、动作识别和奖励预测)上表现优于非结构化的表示方法。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供