Un réseau neuronal multitâche efficace pour l’alignement facial, l’estimation de l’orientation du visage et le suivi facial

Bien que les réseaux de neurones convolutifs (CNN) aient considérablement amélioré les performances des algorithmes liés au visage, il reste un défi majeur de maintenir à la fois une haute précision et une grande efficacité dans les applications pratiques. Les méthodes de pointe reposent sur des architectures profondes afin d’atteindre de meilleures performances, ce qui rend leur utilisation peu réaliste sur les appareils mobiles en raison du nombre accru de paramètres et de la complexité computationnelle élevée. Ainsi, nous proposons un réseau neuronal multitâche efficace, nommé Alignment & Tracking & Pose Network (ATPN), dédié à l’alignement du visage, au suivi du visage et à l’estimation de l’orientation de la tête. Plus précisément, pour améliorer les performances de l’alignement du visage tout en réduisant le nombre de couches, nous introduisons une connexion directe (shortcut connection) entre les caractéristiques issues des couches superficielles et celles des couches profondes. Nous observons que les caractéristiques des couches superficielles sont fortement corrélées aux contours du visage, fournissant ainsi des informations structurelles essentielles pour l’alignement. En outre, nous générons une carte de chaleur à faible coût à partir des résultats d’alignement du visage, que nous fusionnons avec les caractéristiques pour améliorer les performances des deux autres tâches. Grâce à cette carte de chaleur, le réseau peut exploiter à la fois les informations géométriques des points de repère et les informations d’apparence pour l’estimation de l’orientation de la tête. Par ailleurs, cette carte sert de signal d’attention pour le suivi du visage. Enfin, la tâche de suivi permet d’éliminer la détection du visage à chaque trame, ce qui améliore significativement la capacité en temps réel des tâches basées sur des vidéos. Nous validons expérimentalement ATPN sur quatre jeux de données de référence : WFLW, 300VW, WIDER Face et 300W-LP. Les résultats expérimentaux montrent que notre méthode atteint des performances supérieures tout en nécessitant bien moins de paramètres et une complexité computationnelle moindre par rapport aux modèles légers existants.