16 天前

简单、高效且通用:一种新的跨视角图像地理定位主干网络

Yingying Zhu, Hongji Yang, Yuxin Lu, Qiang Huang
简单、高效且通用:一种新的跨视角图像地理定位主干网络
摘要

在本工作中,我们致力于解决一个重要但尚未被充分探索的问题:为跨视图地理定位任务设计一种简单而高效的专用主干网络。现有的跨视图地理定位方法通常存在以下三个问题:1)方法结构复杂;2)计算过程高度依赖GPU资源;3)依赖于航拍图像与地面图像在中心位置或朝向上的严格对齐假设。为应对上述三大挑战,本文提出一种新型主干网络——简单注意力驱动的图像地理定位网络(Simple Attention-based Image Geo-localization network, SAIG)。该网络通过多头自注意力层,有效建模图像块之间的长程依赖关系,并精准捕捉跨视图间的对应关系。SAIG采用“窄而深”(narrow-deep)的网络架构,在不牺牲性能的前提下显著提升了特征表达能力;同时,其浅层且高效的卷积茎干结构(convolutional stem)有效保留了局部性信息,避免了图像分块(patchify)边界信息的丢失。实验结果表明,SAIG在跨视图地理定位任务上达到了当前最优性能,且整体结构远比以往方法更为简洁。更重要的是,相较于当前最先进的模型,SAIG仅需15.9%的参数量和一半的输出维度,即可在多个跨视图数据集上实现良好泛化,且无需依赖精心设计的特征聚合模块或特征对齐算法。此外,SAIG在图像检索基准测试中也取得了具有竞争力的性能表现,进一步验证了其出色的通用性。作为一项主干网络,SAIG兼具结构清晰、易于实现与计算轻量化的优点,具有重要的实际应用价值。此外,我们还提出一种简单的空间混合特征聚合模块(Spatial-Mixed feature aggregation module, SMD),该模块能够将空间信息进行混合并投影至低维空间,从而生成高质量的特征描述符。(代码已开源:https://github.com/yanghongji2007/SAIG)