DMRNet++ : Apprentissage de caractéristiques discriminatives à l’aide de réseaux découplés et de paires enrichies pour une recherche de personne en une seule étape

La recherche de personnes vise à localiser et à reconnaître des individus cibles à partir de cadres vidéo bruts, ce qui constitue une combinaison de deux tâches sous-jacentes : la détection de piétons et la réidentification de personnes. La tendance dominante est connue sous le nom de recherche de personnes en une seule étape, qui optimise conjointement la détection et l’identification au sein d’un réseau unifié, offrant ainsi une efficacité accrue. Toutefois, des défis majeurs persistent : (i) des objectifs contradictoires entre plusieurs tâches sous-jacentes dans un espace de caractéristiques partagé, (ii) une mémoire incohérente due à la taille de lot limitée, (iii) une utilisation insuffisante des identités non étiquetées lors de l’apprentissage de l’identification. Pour relever ces difficultés, nous proposons un réseau amélioré découplé et renforcé par mémoire, appelé DMRNet++. Premièrement, nous simplifions les pipelines fortement couplés classiques et instaurons un cadre découplé par tâche (TDF). Deuxièmement, nous concevons un mécanisme renforcé par mémoire (MRM), basé sur une moyenne mobile lente du réseau, afin d’améliorer l’encodage de la cohérence des caractéristiques mémorisées. Troisièmement, en tenant compte du potentiel des échantillons non étiquetés, nous modélisons le processus de reconnaissance comme un apprentissage semi-supervisé. Une perte contrastive aidée par les échantillons non étiquetés (UCL) est proposée pour renforcer l’apprentissage des caractéristiques d’identification grâce à l’agrégation des identités non étiquetées. Expérimentalement, le DMRNet++ proposé atteint un mAP de 94,5 % et 52,1 % sur les jeux de données CUHK-SYSU et PRW respectivement, dépassant la plupart des méthodes existantes.