Un Modèle Basé sur les Transformers avec Autodistillation pour la Reconnaissance Multimodale des Émotions dans les Conversations

La reconnaissance des émotions dans les conversations (REC), qui consiste à identifier l'émotion de chaque intervention dans une conversation, est essentielle pour développer des machines empathiques. Les études existantes se concentrent principalement sur la capture des dépendances contextuelles et sensibles aux locuteurs dans la modalité textuelle, mais négligent l'importance des informations multimodales. Contrairement à la reconnaissance des émotions dans les conversations textuelles, la capture des interactions intra- et inter-modales entre les interventions, l'apprentissage des poids entre différentes modalités et l'amélioration des représentations modales jouent un rôle crucial en REC multimodale. Dans cet article, nous proposons un modèle basé sur les transformateurs avec auto-distillation (SDT) pour cette tâche. Le modèle basé sur les transformateurs capture les interactions intra- et inter-modales en utilisant des transformateurs intra- et inter-modaux, et apprend dynamiquement les poids entre les modalités grâce à une stratégie de fusion hiérarchique avec portes de contrôle. De plus, pour apprendre des représentations modales plus expressives, nous traitons les étiquettes douces du modèle proposé comme une supervision supplémentaire lors de l'entraînement. Plus précisément, nous introduisons l'auto-distillation pour transférer les connaissances issues des étiquettes dures et douces du modèle proposé à chaque modalité. Les expériences menées sur les jeux de données IEMOCAP et MELD montrent que le SDT surpassent les méthodes de référence précédentes de l'état de l'art.Note: - "Emotion recognition in conversations" is translated as "Reconnaissance des émotions dans les conversations" (REC).- "self-distillation" is translated as "auto-distillation" (SDT).