2 个月前
每个像素都很重要:基于整体3D运动理解的无监督几何学习
Yang, Zhenheng ; Wang, Peng ; Wang, Yang ; Xu, Wei ; Nevatia, Ram

摘要
通过深度卷积网络观看未标记视频来学习单幅图像中的3D几何估计最近取得了显著进展。目前最先进的(SOTA)方法基于刚性结构从运动的学习框架,其中仅对用于几何估计的3D相机自我运动进行建模。然而,许多视频中也存在移动物体,例如街景中的行驶汽车。在本文中,我们通过将每个像素的3D物体运动纳入学习框架来解决这种运动问题,这不仅提供了整体的3D场景流理解,还帮助了单幅图像的几何估计。具体而言,给定视频中的两帧连续图像,我们采用一个运动网络来预测它们之间的相对3D相机姿态和一个区分移动物体与刚性背景的分割掩码。光学流网络用于估计密集的2D每个像素对应关系。单幅图像深度网络则为两张图像预测深度图。这四种信息,即2D流、相机姿态、分割掩码和深度图,被整合到一个可微的整体3D运动解析器(Holistic 3D Motion Parser, HMP)中,在此解析器中恢复刚性背景和移动物体的每个像素的3D运动。我们针对这两种类型的3D运动设计了多种损失函数,以训练深度和运动网络,从而进一步减少几何估计的误差。最后,为了消除单目视频中的3D运动混淆问题,我们将立体图像纳入联合训练中。在KITTI 2015数据集上的实验表明,我们的几何估计、3D运动和移动物体掩码不仅保持了一致性,而且显著优于其他最先进的算法,证明了我们方法的优势。