2 个月前

Pair-VPR：具有位置感知的预训练和对比对分类的视觉位置识别方法（基于视觉变换器）

Stephen Hausler; Peyman Moghadam

摘要

在本研究中，我们提出了一种新颖的视觉位置识别（Visual Place Recognition, VPR）联合训练方法，该方法同时学习全局描述符和用于重新排序的图像对分类器。图像对分类器可以预测给定的一对图像是否来自同一地点。网络仅包含视觉变换器（Vision Transformer）组件，用于编码器和图像对分类器，并且这两个组件都通过各自的类别标记进行训练。现有的VPR方法通常使用从通用图像数据集（如ImageNet）预训练的权重来初始化网络。而在本研究中，我们提出了一种替代的预训练策略，即使用孪生掩码图像建模（Siamese Masked Image Modelling）作为预训练任务。我们还提出了一种从多个大型VPR数据集中抽取位置感知图像的采样程序，以预训练我们的模型，从而学习专门针对VPR调优的视觉特征。通过在第二阶段训练中重用掩码图像建模编码器和解码器的权重，Pair-VPR可以在五个基准数据集上实现最先进的VPR性能，并且使用更大的编码器时还能进一步提高定位召回率。Pair-VPR网站为：https://csiro-robotics.github.io/Pair-VPR。