Réexamen de la désintégration et de la fusion en modalité et contexte dans la reconnaissance émotionnelle conversationnelle multimodale

Il s’agit d’un sujet de recherche très actif de permettre aux machines de comprendre les émotions humaines dans des contextes multimodaux au sein de scénarios de dialogue, une tâche désignée sous le nom d’analyse émotionnelle multimodale en conversation (MM-ERC). Au cours des dernières années, le MM-ERC a suscité une attention constante, avec la proposition d’une grande diversité de méthodes visant à améliorer les performances sur cette tâche. La plupart des travaux existants traitent le MM-ERC comme un problème classique de classification multimodale, en effectuant une désentrelacement et une fusion de caractéristiques multimodales afin de maximiser leur utilité. Toutefois, après avoir réexaminé les caractéristiques propres au MM-ERC, nous soutenons que tant la multimodalité des caractéristiques que la contextualisation conversationnelle doivent être modélisées de manière appropriée simultanément durant les étapes de désentrelacement et de fusion. Dans ce travail, nous visons à améliorer davantage les performances de la tâche en tenant pleinement compte de ces observations. D’un côté, lors du désentrelacement des caractéristiques, inspirés par la technique d’apprentissage contrastif, nous proposons un mécanisme de désentrelacement à deux niveaux (DDM) afin de séparer les caractéristiques selon à la fois l’espace modalité et l’espace énoncé. De l’autre côté, lors de l’étape de fusion, nous introduisons un mécanisme de fusion conscient de la contribution (CFM) pour intégrer les caractéristiques multimodales, ainsi qu’un mécanisme de réfusion contextuelle (CRM) pour intégrer les contextes conversationnels. Ces deux mécanismes coordonnent conjointement l’intégration appropriée des caractéristiques multimodales et contextuelles. Plus précisément, le CFM gère dynamiquement les contributions des caractéristiques multimodales de manière explicite, tandis que le CRM ajuste de manière flexible l’introduction des contextes dialogiques. Sur deux jeux de données publiques de MM-ERC, notre système atteint de manière cohérente des performances de pointe. Des analyses approfondies démontrent que tous les mécanismes proposés contribuent significativement à la tâche MM-ERC en exploitant de manière adaptative les caractéristiques multimodales et contextuelles. Il convient de noter que les méthodes proposées présentent un fort potentiel pour faciliter un éventail plus large de tâches conversationnelles multimodales.