ASMNet : un réseau de neurones profond léger pour l'alignement facial et l'estimation de pose

Le modèle de forme active (Active Shape Model, ASM) est un modèle statistique des formes d'objets qui représente une structure cible. Il peut guider les algorithmes d'apprentissage automatique pour ajuster un ensemble de points représentant un objet (par exemple, un visage) sur une image. Ce papier présente une architecture légère de réseau de neurones convolutif (CNN) dont la fonction de perte est assistée par ASM, destinée à l’alignement facial et à l’estimation de l’orientation de la tête dans des conditions réelles (« in the wild »). Nous utilisons d’abord ASM pour orienter le réseau vers l’apprentissage d’une distribution plus lisse des points de repère faciaux. Inspirés par le transfert d’apprentissage, durant le processus d’entraînement, nous durcissons progressivement le problème de régression afin de guider le réseau vers l’apprentissage de la distribution initiale des points de repère. Nous définissons plusieurs tâches dans notre fonction de perte, responsables à la fois de la détection des points de repère faciaux et de l’estimation de l’orientation du visage. L’apprentissage simultané de plusieurs tâches corrélées permet de créer une synergie et d’améliorer les performances de chaque tâche individuelle. Nous comparons les performances de notre modèle proposé, ASMNet, avec celles de MobileNetV2 (dont la taille est environ deux fois supérieure à celle d’ASMNet), dans les deux tâches d’alignement facial et d’estimation de l’orientation de la tête. Les résultats expérimentaux sur des jeux de données exigeants montrent qu’en utilisant la fonction de perte assistée par ASM, les performances d’ASMNet sont comparables à celles de MobileNetV2 pour l’alignement facial. En outre, pour l’estimation de l’orientation du visage, ASMNet surpasse significativement MobileNetV2. Ainsi, ASMNet atteint des performances acceptables pour la détection des points de repère faciaux et l’estimation de l’orientation de la tête, tout en disposant d’un nombre de paramètres et d’opérations à virgule flottante nettement réduit par rapport à de nombreux modèles basés sur CNN.