TelME : Réseau de fusion multimodale dirigé par l'enseignant pour la reconnaissance des émotions dans la conversation

La reconnaissance des émotions dans la conversation (REC) joue un rôle crucial pour permettre aux systèmes de dialogue de répondre efficacement aux demandes des utilisateurs. Les émotions dans une conversation peuvent être identifiées par les représentations issues de diverses modalités, telles que l'audio, le visuel et le texte. Cependant, en raison de la faible contribution des modalités non verbales à la reconnaissance des émotions, la REC multimodale a toujours été considérée comme une tâche difficile. Dans cet article, nous proposons un réseau de fusion multimodale dirigé par un enseignant pour la REC (TelME). TelME intègre la distillation de connaissances intermodales pour transférer des informations d'un modèle linguistique agissant en tant qu'enseignant vers les étudiants non verbaux, optimisant ainsi l'efficacité des modalités faibles. Nous combinons ensuite les caractéristiques multimodales en utilisant une approche de fusion décalée, dans laquelle les réseaux d'étudiants soutiennent l'enseignant. TelME atteint des performances de pointe sur MELD, un ensemble de données de conversations à plusieurs locuteurs pour la REC. Enfin, nous démontrons l'efficacité de nos composants grâce à des expériences supplémentaires.