Transformateur de prompt multimodal avec apprentissage contrastif hybride pour la reconnaissance des émotions dans la conversation

La reconnaissance des émotions dans la conversation (ERC) joue un rôle important dans le développement de l'interaction homme-machine. Les émotions peuvent exister sous plusieurs modalités, et l'ERC multimodale est principalement confrontée à deux problèmes : (1) le problème de bruit lors du processus de fusion d'informations intermodales, et (2) le problème de prédiction des étiquettes émotionnelles peu fréquentes qui sont sémantiquement similaires mais appartiennent à des catégories différentes. Pour résoudre ces problèmes et pleinement exploiter les caractéristiques de chaque modalité, nous avons adopté les stratégies suivantes : premièrement, une extraction approfondie des indices émotionnels a été réalisée sur les modalités ayant une forte capacité représentative, et des filtres de caractéristiques ont été conçus comme informations multimodales indicatives pour les modalités ayant une faible capacité représentative. Ensuite, nous avons conçu un Multimodal Prompt Transformer (MPT) pour effectuer la fusion d'informations intermodales. Le MPT intègre les informations de fusion multimodale dans chaque couche d'attention du Transformer, permettant aux informations indicatives de participer à l'encodage des caractéristiques textuelles et d'être fusionnées avec des informations textuelles multinationales pour obtenir de meilleures caractéristiques de fusion multimodale. Enfin, nous avons utilisé la stratégie d'apprentissage hybride par contraste (HCL) pour optimiser la capacité du modèle à traiter les étiquettes avec peu d'échantillons. Cette stratégie utilise l'apprentissage par contraste non supervisé pour améliorer la capacité représentative de la fusion multimodale et l'apprentissage par contraste supervisé pour extraire l'information des étiquettes peu fréquentes. Les résultats expérimentaux montrent que notre modèle proposé surpasse les modèles de pointe en ERC sur deux jeux de données de référence.