Command Palette
Search for a command to run...
Réseau d'attention non locale efficace spatialement et temporellement pour la ré-identification de personnes basée sur vidéo
Réseau d'attention non locale efficace spatialement et temporellement pour la ré-identification de personnes basée sur vidéo
Chih-Ting Liu Chih-Wei Wu Yu-Chiang Frank Wang Shao-Yi Chien
Résumé
La ré-identification de personnes basée sur la vidéo (Re-ID) vise à faire correspondre des séquences vidéo de piétons capturées par des caméras non superposées. Il s'agit d'une tâche pratique mais complexe qui consiste à intégrer les informations spatiales et temporelles d'une vidéo dans sa représentation de caractéristiques. Bien que la plupart des méthodes existantes apprennent les caractéristiques vidéo en agrégant des caractéristiques par image et en concevant des mécanismes d'attention dans les réseaux neuronaux, elles ne explorent que la corrélation entre les images au niveau des caractéristiques de haut niveau. Dans ce travail, nous visons à affiner les caractéristiques intermédiaires ainsi que celles de haut niveau grâce aux opérations d'attention non-locales, et nous apportons deux contributions. (i) Nous proposons un réseau d'attention vidéo non-local (NVAN) pour incorporer les caractéristiques vidéo dans la représentation à plusieurs niveaux de caractéristiques. (ii) Nous introduisons également un réseau d'attention vidéo non-local efficace spatialement et temporellement (STE-NVAN) pour réduire la complexité de calcul en explorant la redondance spatiale et temporelle présente dans les vidéos de piétons. De nombreuses expériences montrent que notre NVAN surpassent l'état de l'art avec une amélioration de 3,8 % en précision du premier rang sur le jeu de données MARS, et confirment que notre STE-NVAN présente une empreinte computationnelle bien supérieure aux méthodes existantes.