8 个月前

摘要

通过深度卷积网络观看未标记视频来学习单幅图像中的3D几何估计最近取得了显著进展。目前最先进的（SOTA）方法基于刚性结构从运动的学习框架，其中仅对用于几何估计的3D相机自我运动进行建模。然而，许多视频中也存在移动物体，例如街景中的行驶汽车。在本文中，我们通过将每个像素的3D物体运动纳入学习框架来解决这种运动问题，这不仅提供了整体的3D场景流理解，还帮助了单幅图像的几何估计。具体而言，给定视频中的两帧连续图像，我们采用一个运动网络来预测它们之间的相对3D相机姿态和一个区分移动物体与刚性背景的分割掩码。光学流网络用于估计密集的2D每个像素对应关系。单幅图像深度网络则为两张图像预测深度图。这四种信息，即2D流、相机姿态、分割掩码和深度图，被整合到一个可微的整体3D运动解析器（Holistic 3D Motion Parser, HMP）中，在此解析器中恢复刚性背景和移动物体的每个像素的3D运动。我们针对这两种类型的3D运动设计了多种损失函数，以训练深度和运动网络，从而进一步减少几何估计的误差。最后，为了消除单目视频中的3D运动混淆问题，我们将立体图像纳入联合训练中。在KITTI 2015数据集上的实验表明，我们的几何估计、3D运动和移动物体掩码不仅保持了一致性，而且显著优于其他最先进的算法，证明了我们方法的优势。

源 PDF