
摘要
尽管深度学习已成为许多计算机视觉任务中表现最佳方法的关键成分,但在实例级图像检索方面尚未带来类似的改进。本文认为,深度方法在图像检索中的表现不佳有三个原因:i) 噪声训练数据,ii) 不合适的深度架构,iii) 次优的训练过程。我们针对这三个问题进行了处理。首先,我们利用了一个大规模但带有噪声的地标数据集,并开发了一种自动清理方法,生成了适合深度检索的训练集。其次,我们在最近提出的R-MAC描述符基础上进行研究,表明它可以被解释为一种深度且可微分的架构,并提出了增强其性能的改进措施。最后,我们使用一个结合了三个分支并采用三元组损失函数的孪生网络架构对这一网络进行训练。经过训练过程后,所提出的架构能够在一次前向传递中生成适用于图像检索的全局图像表示。大量实验表明,我们的方法显著优于以往的检索方法,包括基于昂贵局部描述符索引和空间验证的最先进方法。在Oxford 5k、Paris 6k和Holidays数据集上,我们分别报告了94.7%、96.6%和94.8%的平均精度均值(mean average precision)。此外,我们的表示还可以通过乘积量化(product quantization)进行大幅度压缩而几乎不会影响准确性。更多资料,请参见www.xrce.xerox.com/Deep-Image-Retrieval。