HyperAIHyperAI
il y a 4 mois

Réexamen de l'apprentissage émotionnel multi-modale avec des modèles à espace d'états large et une fusion guidée par la probabilité

Yuntao Shou; Tao Meng; Fuchen Zhang; Nan Yin; Keqin Li
Réexamen de l'apprentissage émotionnel multi-modale avec des modèles à espace d'états large et une fusion guidée par la probabilité
Résumé

La reconnaissance émotionnelle multi-modale dans la conversation (MERC) a suscité une attention considérable dans divers domaines, tels que l'interaction homme-machine et les systèmes de recommandation. La plupart des travaux existants effectuent une désentrelacement et une fusion de caractéristiques pour extraire des informations contextuelles émotionnelles à partir de caractéristiques multi-modales et pour classer les émotions. Après avoir réexaminé les caractéristiques de la MERC, nous soutenons que les informations sémantiques contextuelles à long terme doivent être extraites lors du stade de désentrelacement des caractéristiques, et que la cohérence des informations sémantiques inter-modales doit être maximisée lors du stade de fusion des caractéristiques. Inspirés par les modèles d'espace d'état récents (SSMs), Mamba peut modéliser efficacement les dépendances à longue distance. Par conséquent, dans ce travail, nous prenons pleinement en compte ces observations pour améliorer davantage les performances de la MERC.Plus précisément, d'une part, au stade de désentrelacement des caractéristiques, nous proposons un Mamba large qui ne repose pas sur un mécanisme d'auto-attention pour le modélisation séquentielle mais utilise des modèles d'espace d'état pour comprimer la représentation émotionnelle et exploite des systèmes d'apprentissage large pour explorer la distribution potentielle des données dans l'espace large. Contrairement aux SSMs précédents, nous concevons une convolution SSM bidirectionnelle pour extraire des informations contextuelles globales. D'autre part, nous élaborons une stratégie de fusion multi-modale basée sur la guidance probabiliste afin de maximiser la cohérence des informations entre les modalités.Les résultats expérimentaux montrent que la méthode proposée peut surmonter les limitations computationnelles et mémoire du Transformer lors du modélisation des contextes à longue distance et présente un grand potentiel pour devenir une architecture générale de nouvelle génération en MERC.