Identification de personnes basée sur des vidéos avec des réseaux de mémoire spatiale et temporelle

La réidentification de personnes basée sur des vidéos (reID) vise à retrouver des vidéos de personnes ayant la même identité qu'une personne de requête, à travers plusieurs caméras. Les distracteurs spatiaux et temporels présents dans les vidéos de personnes — tels que le désordre de fond et les occlusions partielles sur les trames, respectivement — rendent cette tâche bien plus difficile que la réidentification basée sur des images. Nous observons que les distracteurs spatiaux apparaissent de manière cohérente à des emplacements spécifiques, tandis que les distracteurs temporels présentent plusieurs motifs, par exemple des occlusions partielles qui surviennent au début des séquences, ce qui fournit des indices informatifs pour prédire les trames sur lesquelles se concentrer (c’est-à-dire les attentions temporelles). À partir de cette observation, nous proposons un nouveau modèle appelé Réseaux de Mémoire Spatiale et Temporelle (STMN). La mémoire spatiale stocke les caractéristiques des distracteurs spatiaux fréquemment présents dans les différentes trames d’une vidéo, tandis que la mémoire temporelle conserve les attentions optimisées pour les motifs temporels typiques observés dans les vidéos de personnes. Nous exploitons ces mémoires spatiale et temporelle afin, respectivement, d’améliorer les représentations au niveau des trames de personnes et d’agréger ces caractéristiques raffinées au niveau des trames en une représentation au niveau de la séquence. Cette approche permet ainsi de traiter efficacement les distracteurs spatiaux et temporels présents dans les vidéos de personnes. Nous introduisons également une perte de diffusion de mémoire, qui empêche le modèle de se concentrer uniquement sur certains éléments spécifiques stockés dans les mémoires. Les résultats expérimentaux sur des benchmarks standards, incluant MARS, DukeMTMC-VideoReID et LS-VID, démontrent l’efficacité de notre méthode.