Corrélation spatio-temporelle et apprentissage de la topologie pour la réidentification de personnes dans les vidéos

La réidentification de personnes basée sur la vidéo vise à faire correspondre des piétons dans des séquences vidéo provenant de vues de caméras non superposées. Le facteur clé pour la réidentification de personnes en vidéo est d'exploiter efficacement les indices spatiaux et temporels issus des séquences vidéo. Dans ce travail, nous proposons un nouveau cadre de Corrélation Spatio-Temporelle et Apprentissage Topologique (CTL) pour obtenir une représentation discriminante et robuste en modélisant la corrélation spatio-temporelle à travers différentes échelles. Plus précisément, CTL utilise un squelette CNN et un estimateur de points clés pour extraire des caractéristiques sémantiques locales du corps humain à plusieurs niveaux de granularité, qui servent de nœuds dans un graphe. Il explore une topologie renforcée par le contexte pour construire des graphes multi-échelles en prenant en compte à la fois les informations contextuelles globales et les connexions physiques du corps humain. De plus, une convolution de graphe 3D et une convolution de graphe inter-échelles sont conçues, facilitant la propagation directe d'informations inter-spatio-temporelles et inter-échelles pour capturer des dépendances spatio-temporelles hiérarchiques et des informations structurelles. En effectuant conjointement ces deux convolutions, CTL mine efficacement des indices complements qui sont complémentaires aux informations d'apparence afin d'améliorer la capacité représentative. Des expériences approfondies sur deux benchmarks vidéo ont démontré l'efficacité de la méthode proposée ainsi que sa performance au niveau de l'état de l'art.