Amélioration de la Reconnaissance de Personnes Basée sur la Saliences et l'Analyse Sémantique avec des Modèles de Réseaux Neuronaux Profonds

Étant donné une vidéo ou une image d'une personne acquise par une caméra, la ré-identification de personnes consiste à récupérer toutes les instances de cette même personne à partir de vidéos ou d'images prises par une autre caméra avec des vues non superposées. Cette tâche trouve des applications dans divers domaines, tels que la surveillance, la forensique, la robotique et les multimédias. Dans cet article, nous présentons un nouveau cadre nommé Ré-identification par Analyse Sémantique et Salience (SSP-ReID), qui exploite les capacités combinées de deux indices : la salience et les cartes d'analyse sémantique, pour guider un réseau neuronal convolutif (CNN) principal à apprendre des représentations complémentaires qui améliorent les résultats par rapport aux backbones originaux. L'idée de fusionner plusieurs indices est basée sur des scénarios spécifiques où une réponse est meilleure qu'une autre, ce qui favorise leur combinaison pour augmenter les performances. En raison de sa définition, notre cadre peut être facilement appliqué à une grande variété de réseaux et, contrairement à d'autres méthodes concurrentes, notre processus d'entraînement suit des protocoles simples et standards. Nous présentons une évaluation approfondie de notre approche à travers cinq backbones et trois benchmarks. Les résultats expérimentaux démontrent l'efficacité de notre cadre de ré-identification de personnes. De plus, nous combinons notre cadre avec des techniques de reclassement pour obtenir des résultats de pointe sur trois benchmarks.