
摘要
本文旨在研究大规模视觉场景识别中的表示学习方法,该任务的核心是通过参考参考图像数据库,确定查询图像所描绘的具体位置。由于环境因素随时间可能发生显著变化(如天气、光照、季节、交通状况及遮挡等),该任务极具挑战性。当前研究进展受限于缺乏具有精确真实标签的大规模数据库。为应对这一挑战,本文提出 GSV-Cities 数据集,该数据集迄今覆盖范围最广,地理跨度遍及全球各大洲超过40座城市,时间跨度长达14年,且具备高度精确的真实标注信息。在此基础上,我们充分挖掘深度度量学习领域最新进展的潜力,专门针对场景识别任务训练神经网络,并系统评估不同损失函数对模型性能的影响。实验结果表明,现有方法在 GSV-Cities 数据集上进行训练后,性能显著提升。此外,本文提出一种全新的全卷积聚合层结构,其性能优于现有主流方法,包括 GeM、NetVLAD 和 CosPlace,在多个大规模基准测试集(如 Pittsburgh、Mapillary-SLS、SPED 和 Nordland)上均取得了新的最先进水平。相关数据集与代码已开源,供学术研究使用,地址为:https://github.com/amaralibey/gsv-cities。