11 天前

TransGeo:Transformer 便是跨视角图像地理定位所需的一切

Sijie Zhu, Mubarak Shah, Chen Chen
TransGeo:Transformer 便是跨视角图像地理定位所需的一切
摘要

基于卷积神经网络(CNN)的跨视角图像地理定位方法主要依赖极坐标变换,难以建模全局相关性。为此,我们提出一种纯Transformer架构的方法(TransGeo),从全新视角解决上述局限。TransGeo 充分利用了Transformer在建模全局信息和显式编码位置信息方面的优势。此外,我们进一步发挥Transformer输入的灵活性,提出一种注意力引导的非均匀裁剪方法,能够有效剔除信息量低的图像区域,在性能几乎不受影响的前提下显著降低计算开销。节省下来的计算资源可专门用于提升关键信息区域的分辨率,从而在不增加额外计算成本的情况下实现性能提升。这一“注意力引导、聚焦放大”(attend and zoom-in)的策略,与人类观察图像时的行为高度相似。值得注意的是,TransGeo 在城市与乡村数据集上均取得了当前最优的定位性能,且计算成本远低于传统CNN方法。该方法无需依赖极坐标变换,推理速度也优于基于CNN的方法。代码已开源,地址为:https://github.com/Jeff-Zilence/TransGeo2022。

TransGeo:Transformer 便是跨视角图像地理定位所需的一切 | 最新论文 | HyperAI超神经