DeXpression : Réseau neuronal convolutif profond pour la reconnaissance des expressions

Nous proposons une architecture de réseau neuronal convolutif (CNN) pour la reconnaissance des expressions faciales. L'architecture proposée est indépendante de toute extraction de caractéristiques manuellement conçue et offre des performances supérieures aux approches précédemment proposées basées sur les réseaux neuronaux convolutifs. Nous visualisons les caractéristiques extraites automatiquement par le réseau afin d'améliorer la compréhension. Les ensembles de données standards, à savoir l'Extended Cohn-Kanade (CKP) et la base de données d'expressions faciales MMI, sont utilisés pour l'évaluation quantitative. Sur l'ensemble de données CKP, l'approche actuelle de pointe, utilisant des CNN, atteint une précision de 99,2 %. Pour l'ensemble de données MMI, la meilleure précision actuelle pour la reconnaissance des émotions est de 93,33 %. L'architecture proposée atteint 99,6 % pour CKP et 98,63 % pour MMI, surpassant ainsi l'état de l'art en matière d'utilisation des CNN. La reconnaissance automatique des expressions faciales a un large spectre d'applications telles que l'interaction homme-ordinateur et les systèmes de sécurité. Ceci est dû au fait que les indices non verbaux sont des formes importantes de communication et jouent un rôle central dans la communication interpersonnelle. Les performances de l'architecture proposée attestent de son efficacité et permettent une utilisation fiable dans les applications du monde réel.