Reconnaissance des expressions faciales et des attributs basée sur l’apprentissage multi-tâches de réseaux neuronaux légers

Dans cet article, nous examinons l'entraînement multi-tâches de réseaux neuronaux convolutifs légers pour l'identification faciale et la classification des attributs faciaux (âge, sexe, origine ethnique), entraînés sur des visages découpés sans marge. Il est démontré qu'il reste nécessaire de fine-tuner ces réseaux afin de prédire les expressions faciales. Plusieurs modèles sont proposés, basés sur les architectures MobileNet, EfficientNet et RexNet. Il a été expérimentalement établi que nos modèles atteignent une précision de classification des émotions au niveau de l'état de l'art sur le jeu de données AffectNet, ainsi que des résultats proches de l'état de l'art pour la reconnaissance de l'âge, du sexe et de l'origine ethnique sur le jeu de données UTKFace. En outre, il est montré que l'utilisation de notre réseau neuronal comme extracteur de caractéristiques des régions faciales dans des images vidéo, combinée à la concaténation de plusieurs fonctions statistiques (moyenne, maximum, etc.), permet d'obtenir une précision supérieure de 4,5 % par rapport aux modèles uniques les plus performants connus précédemment sur les jeux de données AFEW et VGAF issus des défis EmotiW.