摘要
视觉定位在众多机器人学与计算机视觉应用中具有关键作用。绝对位姿回归通过编码场景特征并随后进行位姿回归来实现定位,已在定位任务中取得了令人瞩目的成果,能够仅从捕获的场景数据中恢复出6自由度(6-DoF)位姿。然而,现有方法在场景发生变化时,往往需要使用特定源数据重新训练模型,导致计算成本高昂、数据隐私泄露,并因无法完整记忆所有数据而引发定位不可靠的问题。为此,本文提出一种基于激光雷达(LiDAR)的通用编码绝对位姿回归网络,以避免冗余的重新训练并保障数据隐私。具体而言,我们提出采用通用特征编码机制,对不同场景的输入进行统一编码。在此框架下,仅需对回归器(regressor)进行重新训练,即可显著提升效率;且训练过程仅依赖于编码后的特征,无需访问原始源数据,从而有效保护数据隐私。进一步地,我们设计了一种具备记忆感知能力的回归器(memory regressor),其回归器中隐藏单元的数量决定了模型的记忆容量。该设计使得我们能够推导并优化记忆容量的理论上限,从而提升定位的可靠性。此外,可根据不同场景规模对回归器结构进行灵活调整,以适配不同的记忆容量需求。在室外与室内多个数据集上的大量实验验证了上述分析的有效性,并充分证明了所提方法在定位精度、效率与隐私保护方面的优越性能。