UniMSE : Vers une Analyse Unifiée du Sentiment et la Reconnaissance des Émotions Multimodales

L’analyse multimodale des sentiments (MSA) et la reconnaissance des émotions dans les conversations (ERC) constituent des sujets de recherche clés pour permettre aux ordinateurs de comprendre les comportements humains. Du point de vue psychologique, les émotions représentent l’expression d’affects ou de sentiments sur une courte période, tandis que les sentiments se forment et se maintiennent sur une durée plus longue. Toutefois, la plupart des travaux existants étudient séparément le sentiment et l’émotion, sans exploiter pleinement les connaissances complémentaires entre ces deux concepts. Dans cet article, nous proposons un cadre unifié de partage de connaissances sur les sentiments multimodaux (UniMSE), qui intègre les tâches de MSA et ERC au niveau des caractéristiques, des étiquettes et des modèles. Nous réalisons une fusion multimodale aux niveaux syntaxique et sémantique, et introduisons un apprentissage contrastif entre modalités et échantillons afin de mieux capturer les différences et les similarités entre sentiments et émotions. Des expérimentations menées sur quatre jeux de données publiques (MOSI, MOSEI, MELD et IEMOCAP) démontrent l’efficacité de la méthode proposée, qui atteint des améliorations constantes par rapport aux approches de pointe.