Réseau d'Alignement des Piétons pour la Reconnaissance à Grande Échelle des Personnes

La réidentification de personnes (person re-ID) est généralement considérée comme un problème de recherche d'images. Cette tâche vise à rechercher une personne donnée dans un grand ensemble d'images. En pratique, la réidentification de personnes utilise généralement des détecteurs automatiques pour obtenir des images de piétons recadrées. Cependant, ce processus souffre de deux types d'erreurs de détecteur : un excès de fond et des parties manquantes. Ces deux erreurs dégradent la qualité du recalage des piétons et peuvent compromettre le couplage des piétons en raison des variations de position et d'échelle. Pour résoudre le problème de mauvais recalage, nous proposons que l'alignement puisse être appris à partir d'une procédure d'identification. Nous introduisons le réseau d'alignement des piétons (PAN) qui permet l'apprentissage d'embeddings discriminants et l'alignement des piétons sans annotations supplémentaires. Notre observation clé est que lorsque le réseau neuronal convolutif (CNN) apprend à distinguer entre différentes identités, les cartes de caractéristiques apprises présentent généralement une forte activation sur le corps humain plutôt que sur le fond. Le réseau proposé tire donc parti de ce mécanisme d'attention pour localiser et aligner les piétons de manière adaptative au sein d'une boîte englobante. Des exemples visuels montrent que les piétons sont mieux alignés avec PAN. Les expériences menées sur trois grands ensembles de données de réidentification confirment que PAN améliore la capacité discriminante des embeddings de caractéristiques et offre une précision compétitive par rapport aux méthodes les plus avancées actuellement disponibles (state-of-the-art).