Multilogue-Net : Un RNN sensible au contexte pour la détection émotionnelle multi-modale et l’analyse d’opinion dans les conversations

L’analyse des sentiments et la détection des émotions dans les conversations jouent un rôle fondamental dans de nombreuses applications du monde réel, et l’augmentation du nombre de modalités disponibles contribue à une meilleure compréhension des émotions sous-jacentes. La détection multi-modale des émotions et l’analyse des sentiments peuvent être particulièrement utiles, car les applications peuvent exploiter des sous-ensembles spécifiques des modalités disponibles, en fonction des données disponibles. Toutefois, les systèmes actuels traitant la fonctionnalité multi-modale échouent à exploiter pleinement et à capturer le contexte de la conversation à travers toutes les modalités, les dépendances entre les états émotionnels de l’interlocuteur(s) et du locuteur, ainsi que la pertinence et les relations entre les modalités disponibles. Dans cet article, nous proposons une architecture RNN end-to-end visant à surmonter les limitations mentionnées. À la date de rédaction, notre modèle dépasse l’état de l’art sur un jeu de données de référence, selon diverses métriques de précision et de régression.