Similarité intra-inter-caméra pour la ré-identification non supervisée de personnes

La plupart des travaux sur la réidentification non supervisée (Re-ID) génère des pseudo-étiquettes en mesurant la similarité des caractéristiques sans tenir compte de la discrépance de distribution entre les caméras, ce qui entraîne une dégradation de la précision du calcul des étiquettes à travers les différentes caméras. Ce papier vise à relever ce défi en étudiant une nouvelle similarité intra-inter caméra pour la génération de pseudo-étiquettes. Nous décomposons le calcul de la similarité des échantillons en deux étapes : le calcul intra-caméra et le calcul inter-caméra, respectivement. La première étape exploite directement les caractéristiques extraites par un réseau CNN pour évaluer la similarité au sein de chaque caméra. Les pseudo-étiquettes générées sur différentes caméras sont ensuite utilisées pour entraîner le modèle de réidentification dans un réseau à plusieurs branches. La deuxième étape considère les scores de classification de chaque échantillon sur différentes caméras comme un nouveau vecteur de caractéristiques. Ce nouveau vecteur permet efficacement de réduire la discrépance de distribution entre les caméras et de générer des pseudo-étiquettes plus fiables. Nous entraînons donc notre modèle de réidentification en deux étapes, en utilisant successivement les pseudo-étiquettes intra-caméra et inter-caméra. Cette approche simple basée sur la similarité intra-inter caméra obtient des performances remarquables sur plusieurs jeux de données : par exemple, elle atteint une précision au rang 1 de 89,5 % sur le jeu de données Market1501, surpassant les méthodes non supervisées récentes de plus de 9 %, et se rapprochant des meilleures méthodes d'apprentissage par transfert qui utilisent des annotations supplémentaires.