Exploiter les avancées récentes en apprentissage profond pour la reconnaissance émotionnelle audiovisuelle

Les expressions émotionnelles sont les comportements par lesquels nous communiquons notre état émotionnel ou notre attitude à autrui. Elles s’expriment à travers la communication verbale et non verbale. Le comportement humain complexe peut être compris en analysant les caractéristiques physiques issues de plusieurs modalités, principalement faciales, vocales et gestuelles. Récemment, la reconnaissance émotionnelle multi-modale spontanée a fait l’objet d’une étude approfondie pour l’analyse du comportement humain. Dans cet article, nous proposons une nouvelle approche fondée sur l’apprentissage profond pour la reconnaissance émotionnelle audio-visuelle. Notre méthode exploite les avancées récentes en apprentissage profond, telles que la distillation de connaissances et les architectures profondes à haut rendement. Les représentations de caractéristiques profondes des modalités audio et visuelle sont fusionnées selon une stratégie de fusion au niveau du modèle. Un réseau de neurones récurrent est ensuite utilisé pour capturer les dynamiques temporelles. L’approche proposée dépasse significativement les méthodes de pointe dans la prédiction de la valence sur le jeu de données RECOLA. En outre, notre réseau de extraction de caractéristiques d’expression faciale obtient des résultats supérieurs aux méthodes de pointe sur les jeux de données AffectNet et Google Facial Expression Comparison.