19 天前

从视频中学习物体恒常性

Aviv Shamsian, Ofri Kleinfeld, Amir Globerson, Gal Chechik
从视频中学习物体恒常性
摘要

物体恒存性(Object Permanence)使人类能够对不可见物体的位置进行推理,即理解即使物体未被直接感知,其依然持续存在。物体恒存性对于构建对世界的认知模型至关重要,因为在自然视觉场景中,物体之间会动态地相互遮挡与包含。发展心理学的大量研究表明,物体恒存性是一项具有挑战性的认知能力,需通过长期经验逐步习得。本文提出了从数据中学习物体恒存性的实验框架。我们阐明了该学习问题应被分解为四个关键组成部分:(1)物体可见;(2)物体被遮挡;(3)物体被另一物体包含;(4)物体由包含它的物体携带。其中,第四个子任务——目标物体被包含物体携带——尤为困难,因为它要求系统能够推理一个不可见物体的运动位置。为此,我们提出了一种统一的深度神经网络架构,能够在这四种场景下学习预测物体的位置。我们在基于CATER数据集构建的新数据集上对所提出的架构与系统进行了评估,结果表明,该方法在物体定位性能上显著优于以往的定位方法及多种基线模型。