6 个月前

摘要

本文提出了一种可归因的视觉相似性学习（Attributable Visual Similarity Learning, AVSL）框架，旨在实现图像间更准确且可解释的相似性度量。现有大多数相似性学习方法通过将每个样本映射到嵌入空间中的单一数据点，并采用距离度量（如马氏距离、欧氏距离）来计算相似性，反而加剧了结果的不可解释性。受人类语义相似性认知机制的启发，本文提出了一种广义的相似性学习范式，利用图结构来表示两幅图像之间的相似性，并据此推断整体相似性。此外，我们构建了一个自底向上的相似性构建与自顶向下的相似性推理框架，基于语义层次的一致性来推断相似性。具体而言，首先识别出不可靠的高层相似性节点，随后利用语义上最一致的邻近低层相似性节点进行修正，从而在提升相似性判断准确性的同时，保留了相似性归因的可追溯痕迹。在CUB-200-2011、Cars196和Stanford Online Products等多个数据集上的大量实验表明，该方法显著优于现有的深度相似性学习方法，并充分验证了所提框架的可解释性。代码已开源，获取地址为：https://github.com/zbr17/AVSL。

源 PDF