
摘要
逐像素的真值深度数据在大规模获取方面极具挑战性。为克服这一局限,自监督学习已成为训练模型实现单目深度估计的一种极具前景的替代方案。本文提出了一系列改进措施,综合应用后在定量与定性两个方面均显著优于现有的自监督方法。当前关于自监督单目训练的研究通常聚焦于构建日益复杂的网络架构、损失函数以及图像形成模型,这些进展近来已显著缩小了与全监督方法之间的差距。然而,我们发现一个出人意料的简单模型及其相关设计选择,反而能够带来更优的预测效果。具体而言,本文提出:(i)一种最小重投影损失(minimum reprojection loss),旨在鲁棒地处理遮挡问题;(ii)一种全分辨率多尺度采样方法,有效减少视觉伪影;(iii)一种自动遮蔽损失(auto-masking loss),用于忽略违反相机运动假设的训练像素。我们分别验证了各组件的独立有效性,并在KITTI基准测试上取得了高质量、处于当前最先进水平的实验结果。