
摘要
视觉场景识别(Visual Place Recognition, VPR)是计算机视觉中实现视觉定位的一项基础任务。现有的方法通常基于图像对进行训练,这些图像对要么属于同一场景,要么不属于同一场景,采用二元相似性标签。然而,这种二元标注方式未能考虑从不同视角拍摄的同一场景图像之间所呈现的连续相似性关系,而这种关系本质上由相机位姿的连续变化所决定。二元相似性标签在训练过程中引入了噪声监督信号,导致VPR模型容易陷入局部最优,并需依赖昂贵的难样本挖掘(hard mining)算法以保证收敛。鉴于同一场景的两张图像由于相机位姿差异仅部分共享视觉线索,我们提出一种自动重标注策略,对现有VPR数据集进行重新标注。该策略基于可用的定位元数据,为图像对计算出具有梯度的相似性标签(graded similarity labels)。此外,我们提出一种新的广义对比损失函数(Generalized Contrastive Loss, GCL),利用这些梯度相似性标签来训练对比网络。实验表明,结合新的梯度标签与GCL损失函数,可完全摒弃传统的难样本挖掘步骤,同时训练出在最近邻搜索中表现更优的图像描述子。所获结果在性能上优于或至少可媲美那些依赖昂贵难样本挖掘与重排序(re-ranking)技术的方法。相关代码与模型已开源,地址为:https://github.com/marialeyvallina/generalized_contrastive_loss