17 天前

AmsterTime:面向严重域偏移的视觉位置识别基准数据集

Burak Yildiz, Seyran Khademi, Ronald Maria Siebes, Jan van Gemert
AmsterTime:面向严重域偏移的视觉位置识别基准数据集
摘要

我们提出AmsterTime:一个用于在严重领域偏移(domain shift)条件下评估视觉场景识别(Visual Place Recognition, VPR)的具有挑战性的基准数据集。AmsterTime包含2,500张经过精心筛选的图像,这些图像将阿姆斯特丹城市街景与历史档案图像数据进行匹配,涵盖同一场景在不同时期的视觉表现。图像对捕捉了相同地点在不同相机、视角和外观条件下的变化。与现有基准数据集不同,AmsterTime的数据是直接通过地理信息系统(GIS)导航平台Mapillary进行众包获取的。我们对多种基线方法进行了评估,涵盖非学习型方法、监督学习方法以及自监督学习方法,这些方法均在不同相关数据集上进行预训练,以验证其在场景验证(verification)和图像检索(retrieval)任务中的性能。实验结果表明,在两种任务中表现最佳的模型均为在Landmarks数据集上预训练的ResNet-101模型,其在验证任务中的准确率达到了84%,在检索任务中的准确率达到了24%。此外,我们还收集了阿姆斯特丹部分地标建筑的子集,用于在分类任务中评估特征表示能力。进一步地,利用分类标签,通过Grad-CAM技术提取视觉解释,以分析深度度量学习模型所学习到的视觉相似性特征,从而实现对模型判别机制的可视化与可解释性检验。