18 天前

面向视觉位置识别的预训练模型无缝适配

Feng Lu, Lijun Zhang, Xiangyuan Lan, Shuting Dong, Yaowei Wang, Chun Yuan
面向视觉位置识别的预训练模型无缝适配
摘要

近期研究表明,通过大规模数据在通用视觉学习任务上预训练的视觉模型,能够为多种视觉感知问题提供有效的特征表示。然而,针对视觉位置识别(Visual Place Recognition, VPR)任务,对预训练基础模型的利用仍十分有限。由于模型预训练任务与VPR任务在训练目标和数据分布上存在本质差异,如何有效弥合这一差距,并充分释放预训练模型在VPR中的潜力,仍是亟待解决的关键问题。为此,本文提出一种新颖的方法,实现预训练模型向VPR任务的无缝适配。具体而言,为同时获取聚焦显著地标、具备区分能力的全局与局部特征,我们设计了一种混合适配机制,高效地实现全局与局部特征的联合适配。该方法仅通过微调轻量级适配器(adapters)完成,无需更新预训练模型本身。此外,为引导更有效的特征适配,我们提出一种互近邻局部特征损失(mutual nearest neighbor local feature loss),该损失函数可确保生成合理且密集的局部特征,用于局部匹配,同时避免在重排序(re-ranking)阶段进行耗时的空间验证。实验结果表明,所提方法在使用更少训练数据和更短训练时间的情况下,性能优于现有最先进方法。同时,其检索运行时间仅相当于基于RANSAC的空间验证的两阶段VPR方法的约3%。在MSLS挑战赛排行榜上(提交时),本方法位列第一。相关代码已开源,地址为:https://github.com/Lu-Feng/SelaVPR。