Réseaux déconnectés et renforcés par la mémoire : vers un apprentissage efficace des caractéristiques pour la recherche de personnes en une seule étape

L’objectif de la recherche de personnes consiste à localiser et à associer les personnes interrogées à partir d’images de scène. Afin d’assurer une haute efficacité, des méthodes à une étape ont été développées afin de traiter simultanément les sous-tâches de détection de piétons et d’identification, en utilisant un seul réseau. Deux défis majeurs persistent dans les approches actuelles à une étape. Le premier réside dans l’interférence mutuelle entre les objectifs d’optimisation de plusieurs sous-tâches. Le second provient de l’apprentissage sous-optimal des caractéristiques d’identification causé par une taille de lot réduite lors de l’entraînement end-to-end. Pour surmonter ces problèmes, nous proposons un réseau découplé et renforcé par mémoire (DMRNet). Plus précisément, afin de résoudre les conflits entre plusieurs objectifs, nous simplifions les pipelines fortement couplés classiques et établissons un cadre d’apprentissage multi-tâches profondément découplé. En outre, nous concevons un mécanisme renforcé par mémoire pour améliorer l’apprentissage des caractéristiques d’identification. En stockant dans une mémoire-banque les caractéristiques d’identification des instances récemment accessibles, ce mécanisme enrichit la construction des paires de similarité pour l’apprentissage métrique par paires. Pour garantir une meilleure cohérence d’encodage des caractéristiques stockées, nous utilisons une moyenne mobile lente du réseau afin d’extraire ces caractéristiques. Ainsi, les deux réseaux s’auto-renforcent mutuellement et convergent vers des états de solution robustes. Expérimentalement, la méthode proposée atteint 93,2 % et 46,9 % de mAP sur les jeux de données CUHK-SYSU et PRW, surpassant ainsi toutes les méthodes à une étape existantes.