M2FNet : Réseau de fusion multi-modale pour la reconnaissance des émotions dans les conversations

La reconnaissance des émotions dans les conversations (ERC) est essentielle pour le développement d’interactions homme-machine empathiques. Dans les vidéos conversationnelles, les émotions peuvent s’exprimer à travers plusieurs modalités : audio, vidéo et transcription textuelle. Toutefois, en raison des caractéristiques intrinsèques de ces modalités, la reconnaissance émotionnelle multi-modale reste un défi considérable. La recherche actuelle en ERC se concentre principalement sur l’information textuelle des échanges, en ignorant les deux autres modalités. Nous supposons qu’une approche multi-modale pourrait améliorer significativement la précision de la reconnaissance des émotions. Dans cette étude, nous proposons un réseau de fusion multi-modale (M2FNet) qui extrait des caractéristiques pertinentes pour les émotions à partir des modalités visuelle, audio et textuelle. Ce modèle utilise un mécanisme de fusion basé sur une attention multi-tête pour combiner les représentations latentes riches en émotions des données d’entrée. Nous introduisons un nouvel extracteur de caractéristiques conçu pour extraire des représentations latentes à partir des modalités audio et visuelle. Cet extracteur est entraîné à l’aide d’une nouvelle fonction de perte par triplet à marge adaptative, permettant d’apprendre efficacement des caractéristiques liées aux émotions à partir des données audio et visuelles. Dans le domaine de l’ERC, les méthodes existantes obtiennent de bons résultats sur un jeu de données de référence mais se démarquent moins sur d’autres. Nos résultats montrent que l’architecture M2FNet proposée surpassent toutes les autres méthodes en termes de score F1 moyen pondéré sur les jeux de données bien connus MELD et IEMOCAP, établissant ainsi une nouvelle référence en matière de performance dans la reconnaissance émotionnelle dans les conversations.