Apprentissage d'une représentation transférable de piéton à partir d'une supervision multimodale

Les recherches récentes sur la réidentification non supervisée de personnes (reID) ont montré que le préentraînement sur des images de personnes non étiquetées permet d’obtenir des performances supérieures sur les tâches de reID ultérieures par rapport au préentraînement sur ImageNet. Toutefois, ces méthodes préentraînées sont spécifiquement conçues pour la tâche de reID et peinent à s’adapter de manière flexible à d’autres tâches d’analyse de piétons. Dans cet article, nous proposons VAL-PAT, un cadre novateur qui apprend des représentations transférables afin d’améliorer diverses tâches d’analyse de piétons grâce à des informations multimodales. Pour entraîner notre cadre, nous introduisons trois objectifs d’apprentissage : l’apprentissage contrastif auto-supervisé, l’apprentissage contrastif image-texte et la classification multi-attributs. L’apprentissage contrastif auto-supervisé favorise l’acquisition des propriétés intrinsèques des piétons, tandis que l’apprentissage contrastif image-texte guide le modèle à se concentrer sur les informations d’apparence des piétons. Parallèlement, la classification multi-attributs incite le modèle à reconnaître des attributs afin d’extraire des informations fines sur les piétons. Nous effectuons d’abord un préentraînement sur le jeu de données LUPerson-TA, où chaque image est annotée avec du texte et des attributs, puis transférons les représentations apprises vers diverses tâches ultérieures, notamment la réidentification de personnes, la reconnaissance d’attributs de personnes et la recherche de personnes par texte. Des expériences étendues démontrent que notre cadre favorise l’apprentissage de représentations générales de piétons, conduisant ainsi à des résultats prometteurs sur diverses tâches d’analyse de piétons.