Top-DB-Net : Top DropBlock pour l'amélioration de l'activation dans la réidentification de personnes

La réidentification de personnes est une tâche difficile visant à retrouver toutes les instances d'une image de requête au sein d'un système de caméras non chevauchantes. En raison des changements extrêmes de perspective, il est fréquent que des régions locales pouvant servir à l'identification des individus soient supprimées, ce qui conduit à une situation où les méthodes doivent évaluer la similarité entre images sur des régions moins informatives. Dans ce travail, nous introduisons Top-DB-Net, une méthode fondée sur Top DropBlock, qui pousse le réseau à se concentrer sur le premier plan de la scène, en mettant particulièrement l’accent sur les régions les plus pertinentes pour la tâche, tout en codant simultanément les régions peu informatives afin d’obtenir une forte discriminabilité. Top-DB-Net est composé de trois flux : (i) un flux global encode des informations riches à partir d’un modèle de base (backbone), (ii) un flux Top DropBlock encourage le modèle de base à encoder les régions peu informatives en leur attribuant des caractéristiques hautement discriminantes, et (iii) un flux de régularisation aide à atténuer le bruit induit par le processus de suppression dans le deuxième flux, lequel est utilisé lors de l’évaluation des deux premiers flux en phase de test. Des expérimentations étendues sur trois jeux de données exigeants démontrent la supériorité de notre approche par rapport aux méthodes de pointe. Les résultats qualitatifs montrent que notre méthode génère des cartes d’activation plus précises, se concentrant sur les parties fiables des images d’entrée.