Factorisation de la représentation spatio-temporelle pour la réidentification de personnes basée sur des vidéos

Malgré les progrès récents significatifs dans le domaine de la réidentification de personnes à partir de vidéos (re-ID), les méthodes les plus avancées actuelles continuent de faire face à des défis courants du monde réel, tels que la similarité d’apparence entre individus, les occlusions et les désalignements entre cadres. Pour atténuer ces problèmes, nous proposons une nouvelle unité computationnelle flexible appelée Factorisation de Représentation Spatio-Temporelle (STRF), qui peut être intégrée dans la plupart des architectures existantes basées sur des réseaux de neurones convolutifs 3D pour la réidentification. Les innovations clés de STRF par rapport aux travaux antérieurs résident dans des voies explicites pour apprendre des caractéristiques temporelles discriminantes et des caractéristiques spatiales, chacune de ces composantes étant elle-même factorisée afin de capturer des informations complémentaires sur l’apparence spécifique à chaque individu et sur son mouvement. Plus précisément, la factorisation temporelle repose sur deux branches : l'une pour les caractéristiques statiques (par exemple, la couleur des vêtements), qui varient peu dans le temps, et l'autre pour les caractéristiques dynamiques (par exemple, les patterns de marche), qui évoluent au fil du temps. De même, la factorisation spatiale comporte deux branches permettant d’apprendre à la fois des caractéristiques d’apparence globales (segments grossiers) et locales (segments fins), les caractéristiques locales étant particulièrement utiles en cas d’occlusion ou de désalignement spatial. L’ensemble de ces deux opérations de factorisation donne lieu à une architecture modulaire pour notre unité STRF, légère en termes de paramètres, pouvant être insérée entre deux couches convolutives 3D, permettant ainsi un cadre d’apprentissage end-to-end. Nous démontrons empiriquement que STRF améliore les performances de diverses architectures de référence existantes, tout en atteignant de nouveaux résultats état-de-l’art sur trois benchmarks standard utilisant des protocoles d’évaluation classiques pour la réidentification de personnes.