Apprentissage de représentations profondes pour l'alignement facial avec des attributs auxiliaires

Dans cette étude, nous démontrons que la détection de points d'intérêt ou l'alignement facial n'est pas un problème unique et indépendant. Au contraire, sa robustesse peut être considérablement améliorée grâce à des informations auxiliaires. Plus précisément, nous optimisons conjointement la détection de points d'intérêt avec la reconnaissance d'attributs faciaux hétérogènes mais subtilement corrélés, tels que le sexe, l'expression et les attributs d'apparence. Ceci est non trivial car différentes tâches de déduction d'attributs présentent des difficultés d'apprentissage et des taux de convergence différents. Pour résoudre ce problème, nous formulons un modèle profond contraint par des tâches novateur, qui non seulement apprend les corrélations inter-tâches mais utilise également des coefficients de tâche dynamiques pour faciliter la convergence de l'optimisation lors de l'apprentissage de plusieurs tâches complexes. Des évaluations approfondies montrent que l'apprentissage contraint par des tâches proposé (i) surpasse les méthodes existantes d'alignement facial, en particulier dans le traitement des visages avec une occlusion sévère et une variation importante de la pose, et (ii) réduit considérablement la complexité du modèle par rapport aux méthodes les plus avancées basées sur un modèle profond en cascade.