8 个月前

摘要

确定照片拍摄的确切经纬度是一项有用且广泛适用的任务，然而尽管其他计算机视觉任务取得了快速进展，这一任务仍然异常困难。大多数先前的方法选择学习查询图像的单一表示，然后在不同地理粒度级别上进行分类。这些方法未能充分利用不同层次（如国家、州和城市）的视觉线索所提供的上下文信息。为此，我们提出了一种端到端的基于 Transformer 的架构，通过分层交叉注意力机制来利用不同地理层次及其对应的图像场景信息之间的关系。我们通过为每个地理层次和场景类型学习一个查询来实现这一点。此外，我们还为同一地点的不同环境场景学习了独立的表示，因为同一地点的不同场景通常由完全不同的视觉特征定义。我们在4个标准地理定位数据集（Im2GPS、Im2GPS3k、YFCC4k和YFCC26k）上实现了最先进的街道级精度，并从定性角度展示了我们的方法如何学习不同视觉层次和场景的不同表示，这是以往方法所未展示的。这些先前的测试数据集大多包含标志性地标或社交媒体上的图片，这使得它们要么成为记忆任务，要么偏向某些特定地点。为了解决这一问题，我们引入了一个更具挑战性的测试数据集——Google-World-Streets-15k，该数据集包含来自谷歌街景覆盖全球各地的图片，并展示了最先进的结果。我们的代码将在最终版本中公开发布。

源 PDF