17 天前

EffoVPR:面向视觉位置识别的有效基础模型利用

Issar Tzachor, Boaz Lerner, Matan Levy, Michael Green, Tal Berkovitz Shalev, Gavriel Habib, Dvir Samuel, Noam Korngut Zailer, Or Shimshi, Nir Darshan, Rami Ben-Ari
EffoVPR:面向视觉位置识别的有效基础模型利用
摘要

视觉位置识别(Visual Place Recognition, VPR)的任务是从带有地理标签的图像数据库中预测查询图像的位置。近年来,VPR领域的研究强调了使用如DINOv2等预训练基础模型在该任务中的显著优势。然而,这些模型在未经针对VPR特定数据进行微调的情况下,通常被认为表现不足。本文提出了一种有效的方法,以充分挖掘基础模型在VPR任务中的潜力。我们证明,从自注意力(self-attention)层中提取的特征,即使在零样本(zero-shot)设置下,也能作为强大的重排序(re-ranker)机制,显著提升识别性能。所提方法不仅优于以往的零样本方法,其性能甚至可与多种监督学习方法相媲美。进一步地,我们展示了一种单阶段方法,通过利用视觉Transformer(ViT)内部层进行特征池化,能够生成全局特征,并实现当前最先进的性能,同时保持极高的特征紧凑性——特征维度低至128维。此外,将我们提出的局部基础模型特征用于重排序,进一步扩大了与现有方法的性能差距。实验结果表明,该方法在复杂场景下展现出卓越的鲁棒性与泛化能力,成功应对遮挡、昼夜交替以及季节性变化等挑战,创下新的SOTA(State-of-the-Art)性能纪录。