L'entraînement Noisy Student utilisant un jeu de données de langage corporel améliore la reconnaissance des expressions faciales

La reconnaissance des expressions faciales à partir de vidéos prises dans des environnements réels constitue une tâche difficile en raison du manque de données d'entraînement étiquetées abondantes. Bien que les architectures de grands réseaux de neurones profonds (DNN) et les méthodes d'ensemble aient permis d'améliorer les performances, celles-ci atteignent rapidement un plafond en raison de l'insuffisance des données. Dans ce travail, nous proposons une méthode d'auto-entraînement qui exploite une combinaison d'un jeu de données étiqueté et d'un jeu de données non étiqueté (Body Language Dataset - BoLD). Une analyse expérimentale montre qu'entraîner itérativement un réseau « étudiant bruyant » permet d'obtenir des résultats significativement meilleurs. De plus, notre modèle découpe indépendamment différentes régions du visage et les traite à l'aide d'un mécanisme d'attention multi-niveau, ce qui renforce davantage les performances. Nos résultats démontrent que la méthode proposée atteint un niveau d'expertise (state-of-the-art) sur les jeux de données de référence CK+ et AFEW 8.0, surpassant ainsi d'autres modèles uniques.