
摘要
自监督单目深度估计因其在自动驾驶与机器人领域的广泛应用而受到广泛关注。尽管近期方法已通过引入自查询层(Self Query Layer, SQL)等技术,从运动信息中推断深度取得一定进展,但这些方法往往忽视了增强位姿信息的潜力。本文提出一种名为SPIdepth的新方法,其核心思想在于优先强化位姿网络,从而提升深度估计性能。在SQL框架的基础上,SPIdepth强调位姿信息在捕捉精细场景结构中的关键作用。通过增强位姿网络的建模能力,SPIdepth在场景理解与深度估计方面实现了显著提升。在KITTI、Cityscapes和Make3D等基准数据集上的实验结果表明,SPIdepth达到当前最优水平,显著超越以往方法。具体而言,SPIdepth在自监督KITTI基准测试中排名第一。在KITTI数据集上,其绝对相对误差(AbsRel)为0.029,平方相对误差(SqRel)为0.069,均方根误差(RMSE)为1.394,均创下新的最先进纪录。在Cityscapes数据集上,即使未使用运动掩码(motion masks),SPIdepth相较SQLdepth在AbsRel上提升21.7%,SqRel提升36.8%,RMSE提升16.5%。在Make3D数据集上,SPIdepth在零样本(zero-shot)设置下优于所有其他模型。尤为突出的是,SPIdepth仅依赖单张图像进行推理,其性能仍超越了那些采用视频序列进行推理的方法,充分展现了其在真实应用场景中的高效性与优越性。本研究标志着自监督单目深度估计领域的重要进展,凸显了强化位姿信息对提升真实场景理解能力的关键作用。相关代码与预训练模型已公开发布于:https://github.com/Lavreniuk/SPIdepth。