HyperAIHyperAI
il y a 9 jours

Joyful : Fusion de modalités conjointe et apprentissage contrastif sur graphe pour la reconnaissance émotionnelle multimodale

Dongyuan Li, Yusong Wang, Kotaro Funakoshi, Manabu Okumura
Joyful : Fusion de modalités conjointe et apprentissage contrastif sur graphe pour la reconnaissance émotionnelle multimodale
Résumé

La reconnaissance émotionnelle multimodale vise à identifier les émotions associées à chaque énoncé dans plusieurs modalités, un domaine qui suscite un intérêt croissant en raison de ses applications dans l’interaction homme-machine. Les méthodes basées sur les graphes actuelles échouent à représenter simultanément les caractéristiques contextuelles globales et les caractéristiques locales diversifiées propres à chaque modalité au sein d’un dialogue. En outre, avec l’augmentation du nombre de couches du graphe, ces approches sont sujettes au phénomène d’over-smoothing. Dans cet article, nous proposons une méthode de fusion multimodale conjointe et d’apprentissage contrastif sur graphe pour la reconnaissance émotionnelle multimodale (Joyful), dans laquelle la fusion multimodale, l’apprentissage contrastif et la reconnaissance émotionnelle sont optimisées de manière conjointe. Plus précisément, nous concevons tout d’abord un nouveau mécanisme de fusion multimodale permettant une interaction et une fusion approfondies entre les caractéristiques contextuelles globales et les caractéristiques spécifiques à chaque modalité. Ensuite, nous introduisons un cadre d’apprentissage contrastif sur graphe reposant sur des pertes contrastives inter-vue et intra-vue, afin d’apprendre des représentations plus discriminantes pour des échantillons présentant des sentiments différents. Des expériences étendues sur trois jeux de données standards montrent que Joyful atteint des performances de pointe (SOTA) par rapport à toutes les méthodes de référence.