2 个月前
GeoCLIP:基于Clip启发的位置与图像对齐以实现有效的全球地理定位
Vicente Vivanco Cepeda; Gaurav Kumar Nayak; Mubarak Shah

摘要
全球地理定位旨在精确定位地球上任意地点拍摄的图像的具体位置。这一任务面临巨大的挑战,因为地理景观存在极大的多样性。基于图像到图像检索的方法在全球范围内无法解决这一问题,因为构建一个覆盖整个世界的大型图像库在实际操作中并不可行。相反,现有的方法将地球划分为离散的地理单元,将问题转化为分类任务。然而,这些方法的性能受到预定义类别的限制,当图像的位置与其类别中心显著偏离时,往往会导致定位不准确。为了解决这些局限性,我们提出了一种名为GeoCLIP的新颖CLIP启发式图像到GPS检索方法,该方法强制图像与其对应的GPS位置对齐。GeoCLIP的位置编码器通过使用随机傅里叶特征进行位置编码,并构建多层次表示来捕捉不同分辨率的信息,从而生成语义丰富的高维特征,不仅适用于地理定位,还可用于其他领域。据我们所知,这是首次将GPS编码应用于地理定位的研究。我们通过在基准数据集上进行广泛的实验和消融研究来验证我们的方法的有效性。结果显示,在仅使用20%的训练数据的情况下,我们的方法仍能取得具有竞争力的性能,突显了其在有限数据环境下的有效性。此外,我们还利用我们的图像编码器中的CLIP主干网络进行了基于文本查询的地理定位的定性演示。项目网页地址为:https://vicentevivan.github.io/GeoCLIP