11 天前

基于Transformer的多场景绝对位姿回归学习

Yoli Shavit, Ron Ferens, Yosi Keller

摘要

绝对相机位姿回归模型仅通过捕获的图像即可估计相机的位置与姿态。通常，这类方法采用卷积神经网络作为主干网络，并搭配多层感知机（MLP）头部，利用图像与位姿标签联合训练，一次仅嵌入单一参考场景。近期，该方法被扩展至多场景学习，通过将MLP头部替换为一组全连接层实现。在本工作中，我们提出采用Transformer架构实现多场景绝对相机位姿回归：编码器利用自注意力机制聚合特征图，解码器则将潜在特征与场景编码转换为候选位姿预测。该机制使模型能够聚焦于对定位具有判别性的通用特征，同时并行地嵌入多个场景。我们在多个常用室内与室外基准数据集上对所提方法进行了评估，结果表明，其性能优于现有的多场景及当前最先进的单场景绝对位姿回归方法。相关代码已公开发布于：https://github.com/yolish/multi-scene-pose-transformer。