18 天前

面向视觉位置识别的预训练模型无缝适配

Feng Lu, Lijun Zhang, Xiangyuan Lan, Shuting Dong, Yaowei Wang, Chun Yuan

摘要

近期研究表明，通过大规模数据在通用视觉学习任务上预训练的视觉模型，能够为多种视觉感知问题提供有效的特征表示。然而，针对视觉位置识别（Visual Place Recognition, VPR）任务，对预训练基础模型的利用仍十分有限。由于模型预训练任务与VPR任务在训练目标和数据分布上存在本质差异，如何有效弥合这一差距，并充分释放预训练模型在VPR中的潜力，仍是亟待解决的关键问题。为此，本文提出一种新颖的方法，实现预训练模型向VPR任务的无缝适配。具体而言，为同时获取聚焦显著地标、具备区分能力的全局与局部特征，我们设计了一种混合适配机制，高效地实现全局与局部特征的联合适配。该方法仅通过微调轻量级适配器（adapters）完成，无需更新预训练模型本身。此外，为引导更有效的特征适配，我们提出一种互近邻局部特征损失（mutual nearest neighbor local feature loss），该损失函数可确保生成合理且密集的局部特征，用于局部匹配，同时避免在重排序（re-ranking）阶段进行耗时的空间验证。实验结果表明，所提方法在使用更少训练数据和更短训练时间的情况下，性能优于现有最先进方法。同时，其检索运行时间仅相当于基于RANSAC的空间验证的两阶段VPR方法的约3%。在MSLS挑战赛排行榜上（提交时），本方法位列第一。相关代码已开源，地址为：https://github.com/Lu-Feng/SelaVPR。