Apprentissage de la relation spatiale-sémantique pour la reconnaissance des attributs faciaux avec un nombre limité d'étiquettes

Les avancées récentes en apprentissage profond ont démontré des résultats excellents pour la reconnaissance des attributs faciaux (Facial Attribute Recognition, FAR), généralement entraînées à l’aide de grandes quantités de données étiquetées. Toutefois, dans de nombreuses applications réelles de FAR, seules de faibles quantités de données étiquetées sont disponibles, ce qui entraîne une dégradation notable des performances pour la plupart des méthodes actuelles basées sur l’apprentissage profond. Pour remédier à ce problème, nous proposons une méthode intitulée Spatial-Semantic Patch Learning (SSPL). L’entraînement de SSPL s’articule en deux étapes. Premièrement, trois tâches auxiliaires — la tâche de rotation de patch (Patch Rotation Task, PRT), la tâche de segmentation de patch (Patch Segmentation Task, PST) et la tâche de classification de patch (Patch Classification Task, PCT) — sont conjointement développées afin d’apprendre les relations spatiales et sémantiques à partir de grandes quantités de données faciales non étiquetées. Ainsi, nous obtenons un modèle pré-entraîné puissant. En particulier, la PRT exploite de manière auto-supervisée les informations spatiales présentes dans les images faciales. La PST et la PCT captent respectivement les informations sémantiques au niveau des pixels et au niveau de l’image, à l’aide d’un modèle de parsing facial. Deuxièmement, les connaissances spatiales et sémantiques acquises grâce aux tâches auxiliaires sont transférées vers la tâche de reconnaissance des attributs faciaux. Cette approche permet ainsi de fin-tuner efficacement le modèle pré-entraîné avec seulement un nombre limité de données étiquetées. Nos expérimentations étendues et analyses démontrent une performance supérieure par rapport aux méthodes de pointe.