
摘要
跨视角地理定位(CVGL),即通过匹配卫星图像来确定地面图像的地理位置,在全球导航卫星系统(GNSS)受限的情况下至关重要。然而,由于视角差异显著、定位场景复杂以及需要进行全局定位,这一任务面临着重大挑战。为了解决这些问题,我们提出了一种新颖的CVGL框架,该框架集成了视觉基础模型DINOv2和先进的特征混合器。我们的框架引入了对称InfoNCE损失,并采用了近邻采样和动态相似性采样策略,显著提高了定位精度。实验结果表明,我们的框架在多个公开和自建数据集上均超过了现有方法。为了进一步提升全球范围内的性能,我们开发了CV-Cities,这是一种用于全球CVGL的新数据集。CV-Cities包含223,736个带有地理定位数据的地面-卫星图像对,覆盖六大洲的十六个城市,涵盖了广泛的复杂场景,为CVGL提供了一个具有挑战性的基准测试。使用CV-Cities训练的框架在各种测试城市中表现出高定位精度,突显了其强大的全球化和泛化能力。我们的数据集和代码可在https://github.com/GaoShuang98/CVCities获取。