Analyse multimodale des langages dans le monde réel : ensemble de données CMU-MOSEI et graphe dynamique interprétable de fusion

L’analyse du langage multimodal humain constitue un domaine de recherche émergent en traitement automatique du langage (NLP). Ce langage est intrinsèquement multimodal (hétérogène), séquentiel et asynchrone ; il se compose de modalités linguistiques (mots), visuelles (expressions faciales) et acoustiques (paralinguistique), toutes trois organisées sous forme de séquences asynchrones coordonnées. Du point de vue des ressources, il existe un besoin réel de jeux de données à grande échelle permettant des études approfondies de ce type de langage. Dans cet article, nous présentons CMU Multimodal Opinion Sentiment and Emotion Intensity (CMU-MOSEI), le plus grand jeu de données d’analyse d’opinion et de reconnaissance d’émotions jamais constitué à ce jour. À l’aide des données de CMU-MOSEI et d’une nouvelle technique de fusion multimodale appelée Graphique de Fusion Dynamique (Dynamic Fusion Graph, DFG), nous menons des expérimentations visant à explorer les interactions entre modalités dans le langage multimodal humain. Contrairement aux techniques de fusion précédemment proposées, la DFG est hautement interprétable et atteint des performances compétitives par rapport à l’état de l’art antérieur.