Un cadre d'apprentissage multimodal multi-tâches conscient des expressions faciales pour la reconnaissance des émotions dans les conversations à plusieurs intervenants

La reconnaissance émotionnelle multimodale dans les conversations multipersonnelles (MERMC) a récemment suscité un intérêt considérable. En raison de la complexité des scènes visuelles dans les dialogues à plusieurs participants, la plupart des travaux précédents sur la MERMC se sont principalement concentrés sur les modalités textuelles et audio, en ignorant les informations visuelles. Récemment, plusieurs études ont proposé d’extraire des séquences faciales comme caractéristiques visuelles, mettant ainsi en évidence l’importance de ces informations dans la MERMC. Toutefois, pour une utterance donnée, les séquences faciales extraites par les méthodes antérieures peuvent inclure les visages de plusieurs personnes, ce qui introduit inévitablement du bruit dans la prédiction émotionnelle du locuteur réel. Pour résoudre ce problème, nous proposons un cadre en deux étapes nommé Facial expression-aware Multimodal Multi-Task learning (FacialMMT). Plus précisément, une méthode en pipeline est d’abord conçue pour extraire la séquence faciale du locuteur réel pour chaque utterance, composée de reconnaissance multimodale des visages, de regroupement non supervisé des visages et de correspondance faciale. À partir des séquences faciales extraites, nous proposons un modèle de reconnaissance émotionnelle multimodal et sensible aux expressions faciales, qui exploite les distributions d’émotions faciales au niveau des trames afin d’améliorer la reconnaissance émotionnelle au niveau de l’utterance grâce à un apprentissage multi-tâches. Des expériences montrent l’efficacité du cadre FacialMMT proposé sur le jeu de données de référence MELD. Le code source est disponible publiquement à l’adresse suivante : https://github.com/NUSTM/FacialMMT.