Analyse Sémantique Humaine pour la Ré-identification des Personnes

La réidentification de personnes est une tâche complexe principalement en raison des facteurs tels que le bruit de fond, la posture, l'éclairage et les variations de point de vue de la caméra. Ces éléments entravent le processus d'extraction de représentations robustes et discriminantes, empêchant ainsi une distinction réussie entre différentes identités. Pour améliorer l'apprentissage des représentations, il est courant d'extraire des caractéristiques locales à partir des parties du corps humain. Cependant, la pratique courante pour ce processus s'est jusqu'à présent basée sur la détection des parties du corps par boîtes englobantes. Dans cet article, nous proposons d'adopter le parsing sémantique humain, qui, grâce à sa précision au niveau des pixels et sa capacité à modéliser des contours arbitraires, constitue naturellement une meilleure alternative. Notre méthode proposée, SPReID (Semantic Parsing for Re-Identification), intègre le parsing sémantique humain dans la réidentification de personnes et non seulement dépasse considérablement sa ligne de base, mais atteint également des performances de pointe. Nous montrons également qu'en utilisant une stratégie d'entraînement \textit{simple} mais efficace, les architectures convolutives profondes standards populaires telles que Inception-V3 et ResNet-152 peuvent, sans modification et en fonctionnant uniquement sur l'image complète, surpasser largement l'état actuel de l'art. Nos méthodes proposées améliorent l'état actuel de l'art en réidentification de personnes sur : Market-1501 avec une augmentation d'environ 17 % en mAP (mean Average Precision) et 6 % en rang-1 ; CUHK03 avec une augmentation d'environ 4 % en rang-1 ; DukeMTMC-reID avec une augmentation d'environ 24 % en mAP et 10 % en rang-1.