
摘要
我们提出了一种新颖的层次三元组损失(Hierarchical Triplet Loss,简称 HTL),该方法能够通过定义的层次树自动收集具有信息量的训练样本(三元组),该层次树编码了全局上下文信息。这使得我们可以应对在传统三元组损失训练中随机采样的主要局限性,这是深度度量学习中的一个核心问题。我们的主要贡献有两方面:(i) 构建了一个层次类级别的树,其中相邻类别被递归地合并。这种层次结构自然地捕捉了整个数据库中的数据分布特征。(ii) 我们通过引入一个新的违反边距来制定三元组收集的问题,该违反边距根据设计的层次树动态计算。这使得它能够在全局上下文的指导下自动选择有意义的难样本。它促使模型从视觉相似的类别中学习更具区分性的特征,从而实现更快的收敛和更好的性能。我们在图像检索和人脸识别任务上对所提出的方法进行了评估,结果表明其性能显著优于标准三元组损失,提升幅度为 1% 至 18%。此外,该方法在多个基准测试中实现了新的最先进性能,并且所需的训练迭代次数大大减少。