摘要
本文研究了跨视角地理定位问题,旨在实现来自不同视角图像之间的匹配。该任务的核心动机在于学习一种具有判别性的、视角不变的视觉表征。受人类视觉系统挖掘局部模式机制的启发,我们提出了一种名为RK-Net的新框架,通过单一网络联合学习具有判别性的视觉表征并检测显著关键点。具体而言,我们引入了一种单元减法注意力模块(Unit Subtraction Attention Module, USAM),该模块能够自动从特征图中发现具有代表性的关键点,并聚焦于显著区域。USAM参数量极少,却能带来显著的性能提升,且可轻松嵌入到多种网络结构中。通过大量实验验证,我们得出以下结论:(1)通过引入USAM,RK-Net实现了无需额外标注数据的端到端联合学习。表征学习与关键点检测是高度相关任务:表征学习有助于提升关键点检测性能,而关键点检测又能增强模型对视角变化引起的外观剧烈差异的鲁棒性。(2)USAM实现简单,可与现有方法无缝集成,进一步提升当前最优性能。我们在三个具有挑战性的数据集——University-1652、CVUSA和CVACT上均取得了具有竞争力的地理定位精度。相关代码已开源,地址为:https://github.com/AggMan96/RK-Net。