
摘要
基于学习的方法在单幅图像深度估计任务中已经展现出非常有前景的结果。然而,大多数现有的方法将深度预测视为一个监督回归问题,因此需要大量的对应真实深度数据进行训练。仅在各种环境中记录高质量的深度数据就是一个具有挑战性的问题。本文中,我们超越了现有方法,用更容易获取的双目立体视频替换了训练过程中显式的深度数据。我们提出了一种新的训练目标,使我们的卷积神经网络能够在没有真实深度数据的情况下学习执行单幅图像深度估计。通过利用视极几何约束,我们通过图像重建损失来训练网络以生成视差图。我们发现,仅解决图像重建问题会导致质量较差的深度图。为了解决这一问题,我们提出了一种新的训练损失函数,该函数强制左右图像之间产生的视差具有一致性,从而相比现有方法提高了性能和鲁棒性。我们的方法在KITTI驾驶数据集上产生了单目深度估计的最先进结果,甚至超过了使用真实深度数据进行训练的监督方法。