HyperAIHyperAI
il y a 15 jours

Aggrégation spatio-temporelle en pyramide pour la ré-identification de personnes basée sur la vidéo

{Dong Wang, Hu Lu, Xia Geng, Shang Gao, Pingping Zhang, Yingquan Wang}
Aggrégation spatio-temporelle en pyramide pour la ré-identification de personnes basée sur la vidéo
Résumé

L’identification de personnes basée sur des vidéos vise à associer les séquences vidéo de la même personne capturées par plusieurs caméras non chevauchantes. Les représentations spatio-temporelles peuvent fournir des informations plus riches et complémentaires entre les trames, ce qui est crucial pour distinguer la personne cible en cas d’occlusion. Ce papier propose un nouveau cadre appelé Pyramid Spatial-Temporal Aggregation (PSTA), destiné à agréger progressivement les caractéristiques au niveau des trames et à fusionner les caractéristiques temporelles hiérarchiques en une représentation finale au niveau de la vidéo. Ainsi, les informations temporelles à court et à long terme peuvent être efficacement exploitées par différentes couches hiérarchiques. En outre, un module d’agrégation spatio-temporelle (STAM) est introduit pour renforcer la capacité d’agrégation de PSTA. Ce module repose principalement sur deux blocs d’attention novateurs : l’attention par référence spatiale (SRA) et l’attention par référence temporelle (TRA). La SRA explore les corrélations spatiales au sein d’une même trame afin de déterminer les poids d’attention pour chaque position. Quant à la TRA, elle étend la SRA en intégrant les corrélations entre trames adjacentes, permettant ainsi une exploitation complète de l’information de cohérence temporelle, afin de supprimer les caractéristiques parasites et de renforcer celles qui sont discriminantes. Des expérimentations étendues sur plusieurs benchmarks exigeants démontrent l’efficacité du modèle PSTA proposé, et notre modèle complet atteint respectivement 91,5 % et 98,3 % de précision Rank-1 sur les benchmarks MARS et DukeMTMC-VID.

Aggrégation spatio-temporelle en pyramide pour la ré-identification de personnes basée sur la vidéo | Articles de recherche récents | HyperAI