il y a 2 mois

Interprétable et généralisable : la réidentification de personnes avec des convolutions adaptatives à la requête et un relèvement temporel

Liao, Shengcai ; Shao, Ling

Résumé

Pour l'identification de personnes, les réseaux profonds existants se concentrent souvent sur l'apprentissage de représentations. Cependant, sans apprentissage par transfert, le modèle appris reste fixe et n'est pas adaptable pour traiter divers scénarios inconnus. Dans cet article, au-delà de l'apprentissage de représentations, nous examinons comment formuler directement le couplage d'images de personnes dans les cartes de caractéristiques profondes. Nous considérons le couplage d'images comme la recherche de correspondances locales dans les cartes de caractéristiques et construisons des noyaux de convolution adaptatifs à la requête en temps réel pour réaliser un couplage local. De cette manière, le processus et les résultats du couplage sont interprétables, et ce couplage explicite est plus généralisable que les caractéristiques de représentation aux scénarios inconnus, tels que des décalages inconnus, des changements de posture ou de point de vue. Pour faciliter l'entraînement bout à bout de cette architecture, nous avons également développé un module mémoire par classe pour stocker les cartes de caractéristiques des échantillons les plus récents de chaque classe, afin de calculer les pertes de couplage d'images pour l'apprentissage métrique. Grâce à une évaluation directe entre différents jeux de données, la méthode proposée d'apprentissage convolutif adaptatif à la requête (QAConv) obtient d'importantes améliorations par rapport aux méthodes d'apprentissage populaires (environ +10% mAP) et atteint des résultats comparables à ceux obtenus par plusieurs méthodes d'apprentissage par transfert. De plus, une méthode pondérée par score basée sur la cooccurrence temporelle sans modèle appelée TLift est proposée, qui améliore encore davantage les performances, atteignant des résultats d'état de l'art en identification croisée entre jeux de données. Le code source est disponible à l'adresse suivante : https://github.com/ShengcaiLiao/QAConv.