Une Embedding Sensible à la Pose pour la Ré-identification de Personnes avec un Re-rangage Étendu aux Voisinages Croisés

La réidentification de personnes est une tâche de recherche complexe qui nécessite de faire correspondre l'image acquise d'une personne à travers des vues de caméras non superposées. Dans cet article, nous proposons une approche efficace qui intègre à la fois les informations de posture fines et grossières de la personne pour apprendre un plongement discriminant. Contrairement aux directions récentes visant à modéliser explicitement les parties du corps ou à corriger les désalignements basés sur celles-ci, nous montrons qu'une inclusion plutôt directe des vues de caméra acquises et/ou des emplacements des articulations détectés dans un réseau neuronal convolutif aide à apprendre une représentation très efficace. Pour améliorer les performances de recherche, les techniques de reclassement basées sur les distances calculées ont récemment suscité beaucoup d'intérêt. Nous proposons un nouveau cadre de reclassement non supervisé et automatique qui atteint des performances de reclassement parmi les meilleures actuellement disponibles. Nous démontrons que contrairement aux méthodes actuelles de reclassement parmi les meilleures, notre approche n'a pas besoin de recalculer des listes de rang pour chaque paire d'images (par exemple, en se basant sur des voisins réciproques) et performe bien en utilisant simplement une comparaison directe basée sur des listes de rang ou même en utilisant uniquement les distances euclidiennes déjà calculées entre les images. Nous montrons que tant notre représentation apprise que notre méthode de reclassement atteignent des performances parmi les meilleures sur plusieurs jeux de données d'images et vidéos sous surveillance difficiles.Le code est disponible en ligne à : https://github.com/pse-ecn/pose-sensitive-embedding