Adaptation de style caméra pour la réidentification de personnes

Étant une tâche de recherche inter-caméras, la ré-identification des personnes souffre des variations de style d'images causées par différentes caméras. L'état de l'art aborde implicitement ce problème en apprenant un sous-espace descripteur invariant à la caméra. Dans cet article, nous considérons explicitement ce défi en introduisant l'adaptation du style de caméra (CamStyle). CamStyle peut servir d'approche d'augmentation de données qui atténue les disparités de style entre les caméras. Plus précisément, en utilisant CycleGAN, les images d'entraînement étiquetées peuvent être transférées stylistiquement à chaque caméra, et, associées aux échantillons d'entraînement originaux, former l'ensemble d'entraînement augmenté. Cette méthode, bien qu'elle augmente la diversité des données pour éviter le surapprentissage, génère également un niveau considérable de bruit. Afin d'atténuer l'impact du bruit, la régularisation par lissage des étiquettes (Label Smooth Regularization - LSR) est adoptée. La version basique de notre méthode (sans LSR) donne des résultats satisfaisants dans les systèmes à quelques caméras où le surapprentissage se produit souvent. Avec LSR, nous démontrons une amélioration constante dans tous les systèmes, indépendamment du niveau de surapprentissage. Nous rapportons également une précision compétitive par rapport à l'état de l'art.