
摘要
近年来,结合局部与全局特征的方法在多个具有挑战性的深度图像检索基准测试中表现出色,但其使用局部特征也带来了至少两个问题。首先,这些局部特征本质上只是神经网络中局部特征图的激活值,因而可能产生极大的冗余。其次,它们通常采用仅作用于局部特征聚合结果上的全局损失函数进行训练,而测试阶段则依赖于局部特征的匹配,这种训练与测试之间的不一致性导致性能下降。本文提出了一种全新的深度图像检索架构,该架构完全基于一种我们称之为“超特征”(Super-features)的中层特征。这些超特征通过一个迭代注意力模块构建而成,构成一个有序集合,其中每个元素专注于捕捉图像中某一局部且具有判别性的模式。在训练过程中,仅需图像标签即可完成学习。我们设计了一种对比损失函数,直接作用于超特征层面,并聚焦于跨图像匹配的超特征;同时引入第二种互补损失,以增强不同超特征之间的多样性。在常见的地标图像检索基准测试上的实验结果表明,当使用相同数量的特征时,超特征显著优于当前最先进的方法,且在达到相当性能水平时,所需的内存开销大幅降低。代码与模型已开源,地址为:https://github.com/naver/FIRe。