Pré-entraînement à grande échelle pour la ré-identification de personnes avec des étiquettes bruyantes

Cette étude vise à aborder le problème de la pré-formation pour la ré-identification de personnes (Re-ID) à partir d’étiquettes bruitées. Pour établir la tâche de pré-formation, nous appliquons un système simple de suivi d’objets multiples en ligne sur des vidéos brutes provenant d’un jeu de données existant non étiqueté pour la Re-ID, nommé « LUPerson », afin de construire une version étiquetée bruitée appelée « LUPerson-NL ». Étant donné que ces étiquettes d’identité, automatiquement extraites à partir de trajectoires (tracklets), contiennent inévitablement des erreurs, nous proposons un cadre de pré-formation à grande échelle exploitant des étiquettes bruitées (PNL), composé de trois modules d’apprentissage : un apprentissage supervisé pour la Re-ID, un apprentissage contrastif basé sur des prototypes, et un apprentissage contrastif guidé par les étiquettes. En principe, l’apprentissage conjoint de ces trois modules permet non seulement de regrouper les exemples similaires autour d’un même prototype, mais aussi de corriger les étiquettes erronées en fonction de l’affectation aux prototypes. Nous démontrons que l’apprentissage direct à partir de vidéos brutes constitue une alternative prometteuse pour la pré-formation, exploitant les corrélations spatiales et temporelles comme une forme de supervision faible. Cette tâche de pré-formation simple offre une approche évolutivement scalable pour apprendre des représentations d’état de l’art (SOTA) pour la Re-ID à partir de zéro sur « LUPerson-NL », sans recourir à des techniques complexes. Par exemple, en appliquant la même méthode supervisée pour la Re-ID (MGN), notre modèle pré-entraîné améliore le mAP par rapport à sa contrepartie non supervisée de 5,7 %, 2,2 % et 2,3 % respectivement sur les jeux de données CUHK03, DukeMTMC et MSMT17. Dans des scénarios à petite échelle ou en régime peu d’échantillons (few-shot), l’amélioration des performances est encore plus marquée, suggérant une meilleure transférabilité des représentations apprises. Le code source est disponible à l’adresse suivante : https://github.com/DengpanFu/LUPerson-NL