Vers un apprentissage profond de métriques interprétable basé sur un alignement structurel

Comment les réseaux de neurones distinguent-ils deux images ? Il est essentiel de comprendre le mécanisme de correspondance des modèles profonds afin de concevoir des systèmes intelligents fiables pour des applications visuelles à risque telles que la surveillance et le contrôle d’accès. Toutefois, la plupart des méthodes existantes d’apprentissage métrique profond comparent les images en analysant des vecteurs de caractéristiques, ce qui ignore la structure spatiale des images et conduit à une faible interprétabilité. Dans cet article, nous proposons une méthode d’apprentissage métrique profond interprétable (DIML) pour une apprentissage d’embeddings plus transparent. Contrairement aux méthodes classiques fondées sur la comparaison de vecteurs de caractéristiques, nous introduisons une stratégie de correspondance structurée qui aligne explicitement les embeddings spatiaux en calculant un flux de correspondance optimal entre les cartes de caractéristiques des deux images. Notre méthode permet aux modèles profonds d’apprendre des métriques d’une manière plus intuitive pour l’humain, où la similarité entre deux images peut être décomposée en plusieurs similarités partielles, ainsi que leurs contributions respectives à la similarité globale. La méthode est indépendante du modèle (model-agnostic), et peut être appliquée à des réseaux de base préexistants ainsi qu’à diverses méthodes d’apprentissage métrique. Nous évaluons notre approche sur trois grands benchmarks d’apprentissage métrique profond — CUB200-2011, Cars196 et Stanford Online Products — et obtenons des améliorations significatives par rapport aux méthodes populaires, tout en offrant une meilleure interprétabilité. Le code est disponible à l’adresse suivante : https://github.com/wl-zhao/DIML