Une Embedding CNN Apprise de Façon Discriminative pour la Ré-identification des Personnes

Nous réexaminons deux réseaux de neurones convolutifs (CNN) populaires dans la réidentification des personnes (re-ID), à savoir les modèles de vérification et de classification. Ces deux modèles présentent leurs propres avantages et limitations en raison de fonctions de perte différentes. Dans cet article, nous mettons en lumière comment combiner ces deux modèles pour apprendre des descripteurs piétons plus discriminants. Plus précisément, nous proposons un nouveau réseau siamois qui calcule simultanément la perte d'identification et la perte de vérification. Étant donné un couple d'images d'entraînement, le réseau prédit les identités des deux images et détermine si elles appartiennent à la même identité. Notre réseau apprend une représentation discriminante et une mesure de similarité en même temps, ce qui permet d'utiliser pleinement les annotations. Bien que simple, l'embedding appris améliore les performances de pointe sur deux benchmarks publics de réidentification des personnes (re-ID). De plus, nous montrons que notre architecture peut également être appliquée à la recherche d'images.