8 个月前

摘要

我们研究了跨视角地理定位的问题。该任务的主要挑战在于学习能够在大视角变化下保持鲁棒性的特征。现有的基准数据集虽然有所帮助，但在视角数量上存在局限性。通常提供的图像对包含两个视角，例如卫星视角和地面视角，这可能会影响特征学习的效果。除了手机摄像头和卫星外，本文认为无人机可以作为第三个平台来解决地理定位问题。与传统的地面视角图像相比，无人机视角图像遇到的障碍物较少（如树木），并且在围绕目标地点飞行时能够提供更为全面的视野。为了验证无人机平台的有效性，我们引入了一个新的多视角多源基准数据集，用于基于无人机的地理定位，命名为University-1652。University-1652 包含来自三个平台的数据，即全球1,652所大学建筑的合成无人机图像、卫星图像和地面摄像头图像。据我们所知，University-1652 是第一个基于无人机的地理定位数据集，并且支持两项新任务，即无人机视角目标定位和无人机导航。顾名思义，无人机视角目标定位旨在通过无人机视角图像预测目标地点的位置。另一方面，给定一张卫星视角查询图像，无人机导航的任务是引导无人机到达查询中的兴趣区域。我们利用这一数据集分析了多种现成的卷积神经网络（CNN）特征，并提出了一个在这一具有挑战性的数据集上的强大CNN基线模型。实验结果表明，University-1652 有助于模型学习视点不变特征，并且在实际场景中表现出良好的泛化能力。

源 PDF