
摘要
我们研究了跨视角地理定位的问题。该任务的主要挑战在于学习能够在大视角变化下保持鲁棒性的特征。现有的基准数据集虽然有所帮助,但在视角数量上存在局限性。通常提供的图像对包含两个视角,例如卫星视角和地面视角,这可能会影响特征学习的效果。除了手机摄像头和卫星外,本文认为无人机可以作为第三个平台来解决地理定位问题。与传统的地面视角图像相比,无人机视角图像遇到的障碍物较少(如树木),并且在围绕目标地点飞行时能够提供更为全面的视野。为了验证无人机平台的有效性,我们引入了一个新的多视角多源基准数据集,用于基于无人机的地理定位,命名为University-1652。University-1652 包含来自三个平台的数据,即全球1,652所大学建筑的合成无人机图像、卫星图像和地面摄像头图像。据我们所知,University-1652 是第一个基于无人机的地理定位数据集,并且支持两项新任务,即无人机视角目标定位和无人机导航。顾名思义,无人机视角目标定位旨在通过无人机视角图像预测目标地点的位置。另一方面,给定一张卫星视角查询图像,无人机导航的任务是引导无人机到达查询中的兴趣区域。我们利用这一数据集分析了多种现成的卷积神经网络(CNN)特征,并提出了一个在这一具有挑战性的数据集上的强大CNN基线模型。实验结果表明,University-1652 有助于模型学习视点不变特征,并且在实际场景中表现出良好的泛化能力。