
摘要
从单目图像进行相机定位是一个长期存在的挑战,然而其在动态环境下的鲁棒性仍未得到充分解决。相较于传统的几何方法,现代基于卷积神经网络(CNN)的方法(如PoseNet)在应对光照变化或视角变化方面已展现出较高的可靠性,但仍存在以下局限性:首先,前景运动物体未被显式建模处理,导致在动态环境中性能下降且结果不稳定;其次,现有方法对每张图像的输出仅为单一的点估计,缺乏不确定性量化能力。本文提出了一种通用框架,可应用于现有的基于CNN的位姿回归器,以提升其在动态环境中的鲁棒性。核心思想是引入一种先验引导的Dropout模块,并结合自注意力(self-attention)模块,使CNN在训练和推理阶段均能有效忽略前景运动物体。此外,该Dropout模块使位姿回归器能够输出多个候选位姿假设,从而实现对位姿估计不确定性的量化,并进一步在后续的不确定性感知位姿图优化(uncertainty-aware pose-graph optimization)中加以利用,显著增强整体系统的鲁棒性。在RobotCar数据集上,我们的方法取得了平均定位精度9.98米/3.63度的性能,相比当前最先进方法分别提升了62.97%和47.08%。本文实现的源代码已开源,地址为:https://github.com/zju3dv/RVL-dynamic。