
摘要
当前的图像检索度量学习方法通常基于学习一个具有信息量的隐空间表示,其中简单的度量方式(如余弦距离)即可取得良好效果。然而,近期的最先进方法(如HypViT)转向了更为复杂的嵌入空间,虽然可能带来更优的性能,但其复杂性使得在生产环境中的可扩展性较差。在本研究中,我们首先构建了一个基于三元组损失(triplet loss)并结合难样本挖掘(hard negatives mining)的简化模型,该模型在性能上达到当前最先进水平,同时避免了复杂模型带来的可扩展性问题。其次,我们提出了一种全新的图像检索后处理方法——用于图像检索的孪生Transformer(Siamese Transformer for Image Retrieval, STIR),该方法能够在一次前向传播中对多个Top检索结果进行重排序。与以往提出的重排序Transformer不同,STIR无需依赖全局/局部特征提取,而是直接通过注意力机制在像素级别上对查询图像与候选图像进行对比。该方法在标准图像检索数据集(Stanford Online Products 和 DeepFashion In-shop)上建立了新的性能基准。相关源代码已开源,地址为:https://github.com/OML-Team/open-metric-learning/tree/main/pipelines/postprocessing/,同时我们还提供了交互式演示平台:https://dapladoc-oml-postprocessing-demo-srcappmain-pfh2g0.streamlit.app/。