6 个月前

摘要

图像检索任务旨在从一组候选图像（数据库）中找出与查询图像最相似的图像。这类系统广泛应用于多种场景，例如行人重识别（ReID）和视觉商品搜索。尽管近年来图像检索模型不断发展，该任务仍面临诸多挑战，主要源于类内差异较大——如视角变化、光照条件、背景干扰或遮挡等因素导致的图像外观显著变化，而类间差异相对较小。当前大量研究聚焦于构建更具鲁棒性的特征表示，并对目标函数进行改进，通常基于三元组损失（Triplet Loss）框架。部分研究尝试引入类别中心点（centroid）或代理表示（proxy representation）以缓解三元组损失在训练过程中存在的计算效率低及难样本挖掘困难的问题。然而，这些方法通常仅用于训练阶段，而在实际检索阶段被丢弃。本文提出在训练和检索两个阶段均采用类别均值中心点（mean centroid）表示。这种聚合表示对异常值更具鲁棒性，能够生成更稳定的特征表达。由于每个类别仅由一个嵌入向量（即类别中心点）表示，显著降低了检索时间和存储开销。通过将多个样本嵌入聚合为单一中心表示，有效缩小了候选目标向量的数量，大幅缩减了搜索空间，因而特别适用于实际生产环境中的部署。在两个行人重识别（ReID）和时尚图像检索数据集上进行的全面实验表明，所提方法显著优于当前最先进的技术。本文提出的基于中心点的训练与检索策略，为时尚图像检索和行人重识别应用提供了一种高效、可行且具有实际部署价值的新范式。

源 PDF