Deep Miner : un réseau profond et à multiples branches qui extrait des caractéristiques riches et diversifiées pour la ré-identification de personnes

Les approches récentes en identification de personnes reposent principalement sur l’utilisation de réseaux de neurones convolutifs profonds (CNN). Bien que ces réseaux soient efficaces dans diverses tâches telles que la classification ou la détection d’objets, ils ont tendance à se concentrer sur les parties les plus discriminantes d’un objet, au détriment de l’extraction de toutes les caractéristiques pertinentes. Ce comportement pénalise les performances d’une CNN dans la tâche d’identification de personnes, qui requiert précisément la reconnaissance de caractéristiques diverses et fines. Il est donc essentiel de permettre au réseau d’apprendre une grande variété de caractéristiques plus fines afin de rendre le processus d’identification robuste aux changements subtils. Dans cet article, nous proposons Deep Miner, une méthode qui permet aux CNNs « d’extraire » des caractéristiques plus riches et plus diversifiées pour l’identification de personnes. Deep Miner est spécifiquement composé de trois types de branches : une branche Globale (G-branche), une branche Locale (L-branche) et une branche d’Entrée Étouffée (IE-branche). La G-branche correspond au squelette initial du réseau, chargée de prédire les caractéristiques globales, tandis que la L-branche récupère des caractéristiques à une résolution partielle. Quant à la IE-branche, elle reçoit en entrée des cartes de caractéristiques partiellement supprimées, ce qui permet au réseau d’« extraire » de nouvelles caractéristiques (celles ignorées par la G-branche) en sortie. À cet effet, nous introduisons une procédure dédiée d’étouffement visant à identifier et supprimer des caractéristiques au sein d’un CNN donné. Cette procédure présente l’avantage majeur d’être simple tout en produisant un modèle qui surpasse significativement les méthodes d’identification de personnes de l’état de l’art (SOTA). Plus précisément, nous menons des expérimentations sur quatre benchmarks standards d’identification de personnes et observons une amélioration absolue de performance allant jusqu’à 6,5 % en mAP par rapport aux méthodes SOTA.