2 个月前

Pair-VPR:具有位置感知的预训练和对比对分类的视觉位置识别方法(基于视觉变换器)

Stephen Hausler; Peyman Moghadam
Pair-VPR:具有位置感知的预训练和对比对分类的视觉位置识别方法(基于视觉变换器)
摘要

在本研究中,我们提出了一种新颖的视觉位置识别(Visual Place Recognition, VPR)联合训练方法,该方法同时学习全局描述符和用于重新排序的图像对分类器。图像对分类器可以预测给定的一对图像是否来自同一地点。网络仅包含视觉变换器(Vision Transformer)组件,用于编码器和图像对分类器,并且这两个组件都通过各自的类别标记进行训练。现有的VPR方法通常使用从通用图像数据集(如ImageNet)预训练的权重来初始化网络。而在本研究中,我们提出了一种替代的预训练策略,即使用孪生掩码图像建模(Siamese Masked Image Modelling)作为预训练任务。我们还提出了一种从多个大型VPR数据集中抽取位置感知图像的采样程序,以预训练我们的模型,从而学习专门针对VPR调优的视觉特征。通过在第二阶段训练中重用掩码图像建模编码器和解码器的权重,Pair-VPR可以在五个基准数据集上实现最先进的VPR性能,并且使用更大的编码器时还能进一步提高定位召回率。Pair-VPR网站为:https://csiro-robotics.github.io/Pair-VPR。