DARI : Intégration de la métrique de distance et de la représentation pour la vérification des personnes

Au cours de la dernière décennie, on a assisté à un développement rapide de l'apprentissage de représentation des caractéristiques et de l'apprentissage de métrique de distance, bien que ces deux étapes soient souvent abordées séparément. Pour explorer leur interaction, cette étude propose un cadre d'apprentissage bout à bout appelé DARI (Distance metric And Representation Integration), et valide l'efficacité de DARI dans la tâche complexe de vérification d'individus. À partir des images d'entraînement annotées avec des labels, nous produisons tout d'abord un grand nombre d'unités triplettes, chacune contenant trois images, soit une personne et ses références correspondantes ou non correspondantes. Pour chaque unité tripartite, l'écart de distance entre le couple correspondant et le couple non correspondant tend à être maximisé. Nous résolvons cet objectif en construisant une architecture profonde de réseaux neuronaux convolutifs. En particulier, la matrice de distance de Mahalanobis est naturellement factorisée comme une couche pleinement connectée supérieure qui s'intègre sans heurts aux autres couches inférieures représentant les caractéristiques de l'image. Les caractéristiques de l'image et la métrique de distance peuvent ainsi être optimisées simultanément par une rétropropagation unique. Sur plusieurs jeux de données publics, DARI montre des performances très prometteuses pour la réidentification d'individus entre différents capteurs en présence de divers défis, surpassant ainsi d'autres approches avancées actuelles.