Chemin local le plus court intermodale et amélioration globale pour la réidentification de personnes visible-thermique

En plus de prendre en compte la difficulté de reconnaissance due à la posture humaine et à l'occlusion, il est également nécessaire de résoudre les différences modales causées par différents systèmes d'imagerie dans la tâche de ré-identification croisée visible-thermique (VT-ReID). Dans cet article, nous proposons les modules Cross-modal Local Shortest Path and Global Enhancement (CM-LSP-GE), un réseau à deux flux basé sur l'apprentissage conjoint des caractéristiques locales et globales. L'idée centrale de notre travail est d'utiliser l'alignement des caractéristiques locales pour résoudre le problème d'occlusion, et de résoudre les différences modales en renforçant les caractéristiques globales.Tout d'abord, un réseau ResNet à deux flux basé sur l'attention est conçu pour extraire des caractéristiques bimodales et les projeter dans un espace de caractéristiques unifié. Ensuite, pour résoudre les problèmes de posture et d'occlusion croisés entre modes, l'image est coupée horizontalement en plusieurs parties égales afin d'obtenir des caractéristiques locales, puis le plus court chemin entre les caractéristiques locales de deux graphes est utilisé pour réaliser une alignment fine-grained des caractéristiques locales.Troisièmement, un module d'amélioration par normalisation par lots applique une stratégie d'amélioration aux caractéristiques globales, entraînant une amélioration différentielle entre différentes classes. La stratégie de fusion des pertes multi-granularités améliore encore davantage les performances de l'algorithme.Enfin, le mécanisme d'apprentissage conjoint des caractéristiques locales et globales est utilisé pour améliorer la précision de la ré-identification croisée visible-thermique. Les résultats expérimentaux sur deux jeux de données typiques montrent que notre modèle est nettement supérieur aux méthodes les plus avancées actuellement disponibles. En particulier, sur le jeu de données SYSU-MM01, notre modèle peut atteindre une amélioration de 2,89 % et 7,96 % en termes de Rank-1 et mAP respectivement. Le code source sera bientôt rendu disponible.