
摘要
在无法使用深度传感器的情况下,准确估计物体距离对自动驾驶车辆至关重要。此时,必须依赖车载安装的RGB相机来估算距离,这一任务在自然户外环境等复杂场景中尤为具有挑战性。本文提出一种名为M4Depth的新方法,用于深度估计。首先,我们建立深度与连续两帧图像之间视觉视差之间的双射关系,并阐明如何利用该关系实现运动不变的逐像素深度估计。随后,我们详细介绍M4Depth方法,该方法基于一种分层卷积神经网络架构,每一层级通过两个定制化的代价体(cost volumes)对输入的视差图估计进行逐步优化。这些代价体旨在利用运动所施加的时空视觉约束,从而提升网络在多样化场景下的鲁棒性。我们在多个公开数据集上对所提方法进行了测试与泛化能力评估,这些数据集包含在多种户外场景中录制的合成相机轨迹。实验结果表明,M4Depth在上述数据集上的表现优于现有最先进方法,同时在标准深度估计基准测试中也展现出优异性能。本文方法的代码已公开,可访问 https://github.com/michael-fonder/M4Depth 获取。