Apprentissage de l'Association Profonde pour la Réidentification Non Supervisée de Personnes dans les Vidéos

Les méthodes d'apprentissage profond ont commencé à dominer les progrès de recherche en matière de ré-identification de personnes basée sur la vidéo (ré-id). Cependant, les méthodes existantes considèrent principalement l'apprentissage supervisé, qui nécessite des efforts manuels exhaustifs pour étiqueter les données par paires inter-vues. Par conséquent, elles manquent gravement de scalabilité et de praticité dans les applications de vidéosurveillance réelles. Dans ce travail, pour aborder la tâche de ré-identification de personnes vidéo, nous formulons un nouveau schéma d'Apprentissage Profond d'Association (DAL), la première méthode d'apprentissage profond bout-à-bout n'utilisant aucune des étiquettes d'identité lors de l'initialisation et de l'entraînement du modèle. Le DAL apprend un modèle de correspondance pour la ré-id en optimisant conjointement deux pertes d'association basées sur des marges, ce qui contraint efficacement l'association de chaque image à la meilleure représentation intracaméra et intercaméra correspondante. Les CNNs standards existants peuvent être facilement intégrés dans notre schéma DAL. Les résultats expérimentaux montrent que notre DAL proposé surpasse significativement les méthodes actuelles non supervisées de ré-identification de personnes vidéo sur trois benchmarks : PRID 2011, iLIDS-VID et MARS.