HyperAIHyperAI
il y a 18 jours

À la recherche d’un modèle robuste de reconnaissance des expressions faciales : une étude visuelle à grande échelle sur plusieurs corpus

{Alexey Karpov, Denis Dresvyanskiy, Elena Ryumina}
Résumé

Depuis déjà deux décennies, de nombreux chercheurs s’efforcent de développer des systèmes robustes de reconnaissance des émotions. Une telle avancée permettrait de faire passer les systèmes informatiques à un nouveau niveau d’interaction, en offrant un retour bien plus naturel lors des échanges homme-machine grâce à l’analyse de l’état émotionnel de l’utilisateur. Toutefois, l’un des principaux défis de ce domaine réside dans le manque de capacité de généralisation : les performances des modèles chutent de manière marquée lorsqu’ils sont entraînés sur un corpus et évalués sur un autre. Bien que certaines études aient été menées dans cette direction, le modalité visuelle reste encore sous-étudiée. Ainsi, nous présentons une étude trans-corpora visuelle fondée sur l’utilisation de huit corpora, aux conditions d’enregistrement, aux caractéristiques d’apparence des participants et à la complexité du traitement des données sensiblement différentes. Nous proposons un cadre de reconnaissance émotionnelle basé sur la vision, entièrement end-to-end, composé d’un modèle pré-entraîné robuste et d’un sous-système temporel afin de modéliser les dépendances temporelles à travers de nombreuses trames vidéo. Par ailleurs, une analyse détaillée des erreurs et des forces du modèle pré-entraîné est fournie, démontrant ainsi sa forte capacité de généralisation. Nos résultats montrent que le modèle pré-entraîné atteint une précision de 66,4 % sur le jeu de données AffectNet, surpassant tous les résultats de l’état de l’art. En outre, le modèle CNN-LSTM a démontré une efficacité satisfaisante sur des jeux de données visuels dynamiques lors d’expérimentations trans-corpora, atteignant des performances comparables à celles des approches les plus avancées. Enfin, nous mettons à disposition pour les chercheurs futurs les modèles pré-entraînés ainsi que le modèle CNN-LSTM, accessibles via GitHub.