17 天前
Hopper:用于时空推理的多跳Transformer
Honglu Zhou, Asim Kadav, Farley Lai, Alexandru Niculescu-Mizil, Martin Renqiang Min, Mubbasir Kapadia, Hans Peter Graf

摘要
本文研究视频中时空对象中心推理(spatiotemporal object-centric reasoning)问题。我们方法的核心在于“物体恒常性”(object permanence)这一概念,即在物体移动过程中,即使其被遮挡、包含或由其他物体携带,仍能持续推断其位置的能力。现有的基于深度学习的方法在应用于视频推理任务时,往往存在时空偏差问题。为此,本文提出 Hopper 模型,该模型采用多跳 Transformer(Multi-hop Transformer)机制,实现对视频中物体恒常性的推理。给定一段视频和一个定位查询,Hopper 能够在图像帧与物体轨迹之间进行迭代式推理,自动跳过关键帧,以预测目标物体的最终位置。我们通过引入对比损失(contrastive loss)有效降低了模型的时空偏差,显著提升了推理性能。在 CATER 数据集上的实验表明,Hopper 仅需 1 FPS 的帧率,通过跳过少数关键帧,即可达到 73.2% 的 Top-1 准确率。此外,为验证模型在长时序推理方面的能力,我们构建了 CATER-h 数据集,该数据集要求模型进行多步推理才能准确定位目标物体,进一步证明了 Hopper 在复杂时空推理任务中的强大表现力。