Réseau Batch DropBlock pour la réidentification des personnes et au-delà

Étant donné que la tâche de réidentification des personnes est souvent confrontée au problème des changements de posture et des occultations, certaines caractéristiques locales attentives sont souvent supprimées lors de l'entraînement des CNNs. Dans cet article, nous proposons le réseau Batch DropBlock (BDB), qui est un réseau à deux branches composé d'un ResNet-50 conventionnel comme branche globale et d'une branche de suppression de caractéristiques. La branche globale encode les représentations salientes globales. Parallèlement, la branche de suppression de caractéristiques comprend un module d'apprentissage de caractéristiques attentives appelé Batch DropBlock, qui supprime aléatoirement la même région de toutes les cartes de caractéristiques d'entrée dans un lot pour renforcer l'apprentissage de caractéristiques attentives des régions locales. Le réseau concatène ensuite les caractéristiques provenant des deux branches et fournit une représentation plus complète et spatialement distribuée des caractéristiques. Malgré sa simplicité, notre méthode atteint l'état de l'art en matière de réidentification des personnes et peut également être appliquée aux tâches générales d'apprentissage par métrique. Par exemple, nous obtenons une précision Rank-1 de 76,4 % sur le jeu de données CUHK03-Detect et un score Recall-1 de 83,0 % sur le jeu de données Stanford Online Products, surpassant largement les travaux existants (de plus de 6 %).