
摘要
无监督单目深度估计框架在自动驾驶领域展现出良好的性能。然而,现有方法主要依赖于简单的卷积神经网络进行自运动(ego-motion)恢复,在动态复杂的真实场景中难以准确估计相机位姿。这些不精确的相机位姿会不可避免地导致光度重建质量下降,并向深度估计网络提供错误的监督信号,从而误导模型学习。本文提出一种名为 SCIPaD 的新方法,通过引入空间线索实现无监督下的深度与位姿联合学习。具体而言,我们设计了一种置信度感知的特征光流估计器,用于获取二维特征点的位置位移及其对应的置信度水平;同时,提出一种位置线索聚合模块,将 DepthNet 生成的伪三维点云与二维特征光流融合为统一的几何位置表示;最后,引入一种分层位置嵌入注入器,可选择性地将空间线索注入语义特征中,以增强相机位姿解码的鲁棒性。大量实验与分析表明,所提方法在多项指标上均优于现有最先进方法。尤为显著的是,在 KITTI 里程计数据集上,SCIPaD 将相机位姿估计的平均平移误差降低了 22.2%,平均角度误差降低了 34.8%。相关源代码已公开,访问地址为:\url{https://mias.group/SCIPaD}。