Apprentissage discriminatif et génératif conjoint pour la réidentification de personnes

La ré-identification de personnes (re-id) reste un défi en raison des variations intra-classe significatives entre différentes caméras. Récemment, il y a eu un intérêt croissant pour l'utilisation de modèles génératifs afin d'augmenter les données d'entraînement et d'améliorer l'invariance aux modifications des entrées. Cependant, les pipelines génératifs des méthodes existantes restent relativement séparés des étapes d'apprentissage discriminatif de la ré-identification. Par conséquent, les modèles de ré-identification sont souvent entraînés de manière simple sur les données générées. Dans cet article, nous cherchons à améliorer les plongements appris pour la ré-identification en exploitant mieux les données générées. À cette fin, nous proposons un cadre d'apprentissage conjoint qui couple l'apprentissage de la ré-identification et la génération de données de bout en bout. Notre modèle comprend un module génératif qui encode séparément chaque personne dans un code d'apparence et un code de structure, ainsi qu'un module discriminatif qui partage le codeur d'apparence avec le module génératif. En permutant les codes d'apparence ou de structure, le module génératif est capable de produire des images composites inter-id de haute qualité, qui sont ensuite alimentées en temps réel au codeur d'apparence et utilisées pour améliorer le module discriminatif. Le cadre d'apprentissage conjoint proposé apporte une amélioration notable par rapport à la ligne de base sans utiliser les données générées, conduisant à des performances parmi les meilleures sur plusieurs jeux de données de référence.