
摘要
检索相关多媒体内容是数据驱动世界中面临的主要问题之一。随着无人机的普及,高质量的航拍画面首次向广大观众开放。将这些画面整合到应用中可以实现无需GPS的地理定位或位置校正。在本文中,我们提出了一种基于方向引导的训练框架,用于无人机视角下的地理定位。通过层次化的定位方法,估计无人机图像相对于卫星影像的方向。我们设计了一个轻量级预测模块,该模块基于对比学习嵌入(contrastive learned embeddings)预测不同视图之间的方向。实验结果表明,这种预测支持了训练过程,并且优于以往的方法。提取出的伪标签还使得卫星图像能够在增强过程中进行对齐旋转,从而进一步提高泛化能力。在推理阶段,我们不再需要这个方向模块,这意味着不需要额外的计算资源。我们在University-1652和University-160k数据集上均取得了最先进的结果。