Apprentissage profond de caractéristiques conscientes de l'attention pour la réidentification de personnes

L’attention visuelle s’est avérée efficace pour améliorer les performances de la réidentification de personnes (person re-identification). La plupart des méthodes existantes appliquent l’attention visuelle de manière heuristique en apprenant une carte d’attention supplémentaire afin de répondre aux cartes de caractéristiques pour la réidentification. Toutefois, ces approches augmentent inévitablement la complexité du modèle et le temps d’inférence. Dans cet article, nous proposons d’intégrer l’apprentissage de l’attention comme objectifs supplémentaires dans un réseau de réidentification de personnes sans modifier la structure initiale, permettant ainsi de préserver le même temps d’inférence et la taille du modèle. Deux types d’attention sont considérés afin que les cartes de caractéristiques apprises soient sensibles respectivement à la personne entière et aux parties corporelles associées. Globalement, une branche d’attention holistique (HAB) incite les cartes de caractéristiques extraites par le modèle principal à se concentrer sur les personnes, afin de réduire l’influence du fond. Localement, une branche d’attention partielle (PAB) décompose les caractéristiques extraites en plusieurs groupes, chacun étant responsable de parties spécifiques du corps (c’est-à-dire des points clés), ce qui améliore la robustesse aux variations de posture et aux occlusions partielles. Ces deux types d’attention sont universels et peuvent être facilement intégrés dans les réseaux de réidentification existants. Nous avons évalué leurs performances sur deux architectures typiques (TriNet et Bag of Tricks), observant une amélioration significative sur cinq jeux de données largement utilisés.