HCAM -- Modèle d'Attention Croisée Hiérarchique pour la Reconnaissance Émotionnelle Multimodale

La reconnaissance des émotions dans les conversations est un défi en raison de la nature multi-modale de l’expression émotionnelle. Nous proposons une approche basée sur un modèle hiérarchique à attention croisée (HCAM) pour la reconnaissance multi-modale des émotions, combinant des réseaux neuronaux récurrents et des architectures d’attention conjointe. L’entrée du modèle comporte deux modalités : i) des données audio, traitées via une approche apprenable de type wav2vec, et ii) des données textuelles représentées à l’aide d’un modèle d’encodage bidirectionnel basé sur les transformateurs (BERT). Les représentations audio et textuelles sont traitées à l’aide d’une série de couches de réseaux neuronaux récurrents bidirectionnels munies d’attention propre, permettant de convertir chaque énoncé d’une conversation donnée en un vecteur d’embedding de dimension fixe. Afin d’intégrer des connaissances contextuelles et des informations croisées entre les deux modalités, les embeddings audio et textuels sont combinés à l’aide d’une couche d’attention conjointe, qui vise à pondérer les embeddings au niveau des énoncés les plus pertinents pour la tâche de reconnaissance des émotions. Les paramètres du réseau neuronal dans les couches audio, les couches textuelles ainsi que les couches d’attention conjointe multi-modale sont entraînés de manière hiérarchique pour la classification des émotions. Nous menons des expérimentations sur trois jeux de données établis : IEMOCAP, MELD et CMU-MOSI, où nous démontrons que le modèle proposé s’impose nettement par rapport aux méthodes de référence et permet d’atteindre des résultats de pointe sur l’ensemble de ces jeux de données.