17 天前

ProGEO:通过图像-文本对比学习生成提示用于视觉地理定位

Chen Mao, Jingqi Hu
ProGEO:通过图像-文本对比学习生成提示用于视觉地理定位
摘要

视觉地理定位(Visual Geo-localization, VG)是指通过查询图像识别其所描述地理位置的过程,广泛应用于机器人学及计算机视觉任务中,如自动驾驶、元宇宙、增强现实以及同步定位与地图构建(SLAM)等。在缺乏具体文本描述的细粒度图像中,直接采用纯视觉方法来表征邻域特征,往往导致模型过度关注过于细微的局部特征,难以充分挖掘图像中的语义信息。为此,我们提出一种两阶段训练方法,以提升视觉性能,并利用对比学习挖掘具有挑战性的样本。首先,我们利用CLIP(对比语言-图像预训练)模型的多模态描述能力,为每幅地理图像特征生成一组可学习的文本提示,构建出模糊但具描述性的语义表达。随后,通过引入动态文本提示辅助图像编码器的训练,使图像编码器能够学习到更具判别性与泛化能力的视觉特征。该将文本信息引入纯视觉任务的策略,有效应对了地理图像通常缺乏精确文本描述这一难题,从而提升了多模态模型在地理图像场景中的适用性与实用性。我们在多个大规模视觉地理定位数据集上验证了所提方法的有效性,实验结果表明,该方法在多个视觉地理定位基准数据集上均取得了具有竞争力的性能表现。相关代码与模型已开源,地址为:https://github.com/Chain-Mao/ProGEO。