HyperAIHyperAI

Command Palette

Search for a command to run...

Analyse multimodale des langages dans le monde réel : ensemble de données CMU-MOSEI et graphe dynamique interprétable de fusion

Louis-Philippe Morency AmirAli Bagher Zadeh Soujanya Poria Paul Pu Liang Erik Cambria

Résumé

L’analyse du langage multimodal humain constitue un domaine de recherche émergent en traitement automatique du langage (NLP). Ce langage est intrinsèquement multimodal (hétérogène), séquentiel et asynchrone ; il se compose de modalités linguistiques (mots), visuelles (expressions faciales) et acoustiques (paralinguistique), toutes trois organisées sous forme de séquences asynchrones coordonnées. Du point de vue des ressources, il existe un besoin réel de jeux de données à grande échelle permettant des études approfondies de ce type de langage. Dans cet article, nous présentons CMU Multimodal Opinion Sentiment and Emotion Intensity (CMU-MOSEI), le plus grand jeu de données d’analyse d’opinion et de reconnaissance d’émotions jamais constitué à ce jour. À l’aide des données de CMU-MOSEI et d’une nouvelle technique de fusion multimodale appelée Graphique de Fusion Dynamique (Dynamic Fusion Graph, DFG), nous menons des expérimentations visant à explorer les interactions entre modalités dans le langage multimodal humain. Contrairement aux techniques de fusion précédemment proposées, la DFG est hautement interprétable et atteint des performances compétitives par rapport à l’état de l’art antérieur.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp