Exploitation de la réidentification de personnes dans des vidéos non supervisée et robuste

Les méthodes d’identification de personnes dans des vidéos non supervisées (reID) reposent généralement sur des caractéristiques au niveau global. De nombreuses méthodes supervisées utilisant des caractéristiques au niveau local ont permis d’améliorer significativement les performances. Toutefois, l’application de caractéristiques locales aux méthodes non supervisées peut entraîner une instabilité des résultats. Afin d’améliorer la stabilité des performances dans le cadre de la reID vidéo non supervisée, ce papier propose un schéma général fondé sur la fusion de modèles partiels et d’apprentissage non supervisé. Dans ce schéma, les caractéristiques au niveau global sont divisées en sous-parties locales de taille égale. Un module sensible aux parties est introduit pour exploiter le potentiel des caractéristiques locales dans le cadre de l’apprentissage non supervisé. Un module sensible au global est également proposé afin de surmonter les inconvénients inhérents aux caractéristiques locales. Les caractéristiques issues de ces deux modules sont fusionnées afin de former une représentation robuste pour chaque image d’entrée. Cette représentation bénéficie des avantages des caractéristiques locales sans en subir les inconvénients. Des expérimentations approfondies ont été menées sur trois benchmarks, à savoir PRID2011, iLIDS-VID et DukeMTMC-VideoReID, et les résultats démontrent que l’approche proposée atteint des performances de pointe. Des études ablatives étendues confirment l’efficacité et la robustesse du schéma proposé, ainsi que des modules sensible aux parties et sensible au global. Le code source et les caractéristiques générées sont disponibles à l’adresse suivante : https://github.com/deropty/uPMnet.