1 个月前
从视频中无监督学习物体结构和动态
Matthias Minderer; Chen Sun; Ruben Villegas; Forrester Cole; Kevin Murphy; Honglak Lee

摘要
从视频中无监督地提取和预测物体结构及动态是机器学习领域的一大挑战。为了解决这一挑战,我们采用了基于关键点的图像表示方法,并学习了关键点的随机动力学模型。未来帧通过关键点和参考帧进行重建。通过对关键点坐标空间中的动态建模,我们实现了稳定的学习过程,并避免了像素空间中误差的累积。我们的方法在像素级视频预测以及需要对象级别运动动力学理解的下游任务上均优于非结构化的表示方法。我们在多个数据集上评估了我们的模型,包括多智能体体育数据集、Human3.6M 数据集以及基于 DeepMind 控制套件连续控制任务的数据集。空间结构化的表示方法在一系列与运动相关的任务(如物体跟踪、动作识别和奖励预测)上表现优于非结构化的表示方法。