2 个月前
这张图片来自何处?基于Transformer的野外地理定位
Shraman Pramanick; Ewa M. Nowara; Joshua Gleason; Carlos D. Castillo; Rama Chellappa

摘要
从全球任意地点拍摄的一张地面级别的RGB图像中预测地理位置(地理定位)是一个极具挑战性的问题。这些挑战包括由于不同环境场景导致的图像巨大多样性,同一地点在一天中的不同时间、天气和季节下外观的巨大变化,更重要的是,预测仅基于一张可能只包含少量地理定位线索的图像。因此,现有的大多数研究工作都局限于特定城市、特定图像或全球地标。在这项工作中,我们专注于开发一种高效的全球尺度单图像地理定位解决方案。为此,我们提出了TransLocator,这是一种统一的双分支变压器网络,能够在整个图像上关注微小细节,并在极端外观变化下生成稳健的特征表示。TransLocator以RGB图像及其语义分割图为输入,在每个变压器层之后在其两个并行分支之间进行交互,并以多任务方式同时执行地理定位和场景识别。我们在四个基准数据集——Im2GPS、Im2GPS3k、YFCC4k和YFCC26k上评估了TransLocator,在大陆级准确率方面比现有最先进方法分别提高了5.5%、14.1%、4.9%和9.9%。此外,TransLocator还在现实世界的测试图像上进行了验证,结果表明其效果优于以往的方法。