
摘要
我们提出了一种端到端的联合训练框架,在单目相机设置下,无需监督即可显式建模多个动态物体的6-DoF运动、自身运动(ego-motion)以及深度信息。本工作的技术贡献主要体现在三个方面:首先,我们在建模每个刚性物体独立运动时,指出了逆向投影与正向投影之间的根本差异,并提出了一种基于神经正向投影模块的几何上正确的投影流程;其次,我们设计了一种统一的、实例感知的光度与几何一致性损失函数,能够对所有背景区域和物体区域整体施加自监督信号;最后,我们引入了一种通用的自动标注方案,仅需任意现成的实例分割模型与光流模型,即可生成视频实例分割图,作为本训练框架的输入数据。上述各项技术组件均通过详尽的消融实验得到了验证。在KITTI和Cityscapes数据集上进行的大量实验表明,本框架在深度估计与运动估计方面均优于当前最先进的方法。相关代码、数据集及模型已开源,地址为:https://github.com/SeokjuLee/Insta-DM。