Apprentissage de la similarité visuelle attribuable

Cet article propose un cadre d’apprentissage de la similarité visuelle attribuable (AVSL) afin d’obtenir une mesure de similarité entre images plus précise et plus explicite. La plupart des méthodes existantes d’apprentissage de similarité aggravent le manque d’explicabilité en projetant chaque échantillon en un unique point dans l’espace d’embedding, au moyen d’une métrique de distance (par exemple, distance de Mahalanobis, distance euclidienne). Inspirés de la cognition humaine de la similarité sémantique, nous proposons un paradigme généralisé d’apprentissage de similarité, représentant la similarité entre deux images par un graphe, puis en déduisant la similarité globale de manière cohérente. En outre, nous établissons un cadre hiérarchique de construction de similarité (du bas vers le haut) et d’inférence de similarité (du haut vers le bas), permettant d’inférer la similarité en s’appuyant sur la cohérence de la hiérarchie sémantique. Nous identifions d’abord les nœuds de similarité de niveau supérieur peu fiables, puis les corrigeons en utilisant les nœuds voisins de niveau inférieur les plus cohérents, tout en préservant simultanément des traces permettant d’attribuer la similarité. Des expériences étendues sur les jeux de données CUB-200-2011, Cars196 et Stanford Online Products montrent des améliorations significatives par rapport aux méthodes profondes existantes d’apprentissage de similarité, et confirment l’explicabilité de notre cadre. Le code est disponible à l’adresse suivante : https://github.com/zbr17/AVSL.