Pré-entraînement auto-supervisé pour la ré-identification de personnes basée sur les Transformers

La pré-formation supervisée basée sur les transformateurs atteint des performances remarquables dans la ré-identification de personnes (ReID). Toutefois, en raison de l’écart de domaine entre les jeux de données ImageNet et ReID, il est généralement nécessaire d’utiliser un ensemble de données de pré-formation plus volumineux (par exemple, ImageNet-21K) afin d’améliorer les performances, en raison de la forte capacité d’ajustement des données du modèle Transformer. Pour relever ce défi, ce travail vise à atténuer l’écart entre les données de pré-formation et celles du jeu de données ReID, respectivement du point de vue des données et de la structure du modèle. Nous étudions tout d’abord des méthodes d’apprentissage auto-supervisé (SSL) basées sur le Vision Transformer (ViT), pré-entraînées sur des images de personnes non étiquetées provenant du jeu de données LUPerson, et constatons empiriquement qu’elles surpassent significativement les modèles pré-entraînés sur ImageNet dans les tâches de ReID. Pour réduire davantage l’écart de domaine et accélérer la pré-formation, nous proposons un score de mémoire catastrophique (Catastrophic Forgetting Score, CFS) afin d’évaluer l’écart entre les données de pré-formation et celles de fin-tuning. Sur la base de ce score, un sous-ensemble est sélectionné en échantillonnant des données pertinentes proches des données du jeu de données ReID en aval, tout en filtrant les données non pertinentes du jeu de données de pré-formation. En ce qui concerne la structure du modèle, nous proposons un module spécifique à la ReID, nommé stem de convolution basé sur IBN (ICS), afin de réduire l’écart de domaine en apprenant des caractéristiques plus invariantes. Des expériences abondantes ont été menées pour fin-tuner les modèles pré-entraînés dans des cadres d’apprentissage supervisé, d’adaptation de domaine non supervisée (UDA) et d’apprentissage non supervisé (USL). Nous parvenons à réduire de moitié la taille du jeu de données LUPerson sans aucune dégradation de performance. Enfin, nous atteignons des performances de pointe sur Market-1501 et MSMT17. Par exemple, notre ViT-S/16 atteint 91,3 % / 89,9 % / 89,6 % de précision mAP sur Market1501 pour les tâches de ReID supervisée, UDA et USL respectivement. Le code source et les modèles seront publiés sur https://github.com/michuanhaohao/TransReID-SSL.