Norface : Amélioration de l'analyse des expressions faciales par normalisation de l'identité

L'analyse des expressions faciales reste une tâche complexe en raison du bruit non pertinent à la tâche, tel que l'identité, la position de la tête et le fond. Pour remédier à ce problème, cet article propose un nouveau cadre, appelé Norface, qui est unifié pour les tâches d'analyse des unités d'action (AU) et de reconnaissance des émotions faciales (FER). Norface se compose d'un réseau de normalisation et d'un réseau de classification. Tout d'abord, le réseau de normalisation soigneusement conçu s'efforce de supprimer directement le bruit non pertinent mentionné précédemment, en maintenant la cohérence des expressions faciales tout en normalisant toutes les images originales à une identité commune avec une position et un fond constants. Ensuite, ces images normalisées supplémentaires sont alimentées au réseau de classification. Grâce à l'identité constante et à d'autres facteurs (par exemple, la position de la tête, le fond, etc.), les images normalisées permettent au réseau de classification d'extraire plus efficacement des informations utiles sur les expressions. De plus, le réseau de classification intègre un Mélange d'Experts pour affiner la représentation latente, y compris le traitement des représentations faciales en entrée et la production de plusieurs étiquettes (AU ou émotion) en sortie. Des expériences approfondies valident le cadre soigneusement conçu avec l'intuition de la normalisation de l'identité. La méthode proposée surpasses les méthodes SOTA existantes dans plusieurs tâches d'analyse des expressions faciales, notamment la détection des AU, l'estimation de l'intensité des AU et les tâches FER, ainsi que leurs tâches inter-bases de données. Pour accéder aux jeux de données normalisés et au code source, veuillez consulter {https://norface-fea.github.io/}.