
摘要
现有的深度嵌入方法在视觉任务中能够从图像中学习到一个紧凑的欧几里得空间,其中欧几里得距离对应于一种相似度度量。为了使学习过程更加有效和高效,通常会采用难样本挖掘技术,通过计算欧几里得特征距离来识别样本。然而,全局欧几里得距离无法忠实地刻画复杂视觉特征空间中的真实特征相似度,在高密度区域内的类内距离可能大于低密度区域内的类间距离。本文引入了一种位置依赖的深度度量(Position-Dependent Deep Metric, PDDM)单元,该单元能够学习适应局部特征结构的相似度度量。这种度量可以用于在局部邻域内选择真正难的样本,以在线且稳健的方式指导深度嵌入学习。新的层具有可插拔性,适用于任何卷积网络,并且可以端到端地进行训练。我们的局部相似度感知特征嵌入不仅在两个复杂的图像检索数据集上展示了更快的收敛速度和性能提升,其大间隔特性还在ImageNet 2010和ImageNet-10K数据集的大规模开放集场景下的迁移学习和零样本学习中取得了优异的泛化结果。