il y a 2 mois

Réseau récurrent à multi-attention pour la compréhension de la communication humaine

Amir Zadeh; Paul Pu Liang; Soujanya Poria; Prateek Vij; Erik Cambria; Louis-Philippe Morency

Résumé

La communication faciale directe entre humains est un signal multimodal complexe. Nous utilisons des mots (modalité linguistique), des gestes (modalité visuelle) et des variations de tonalité (modalité acoustique) pour transmettre nos intentions. Bien que les humains traitent et comprennent facilement la communication faciale directe, comprendre cette forme de communication reste un défi majeur pour l'Intelligence Artificielle (IA). L'IA doit non seulement comprendre chaque modalité, mais aussi les interactions entre elles qui façonnent la communication humaine. Dans cet article, nous présentons une nouvelle architecture neuronale pour la compréhension de la communication humaine appelée le Réseau Récurent à Multi-attention (MARN). La principale force de notre modèle réside dans sa capacité à découvrir les interactions entre les modalités au fil du temps grâce à un composant neuronal appelé le Bloc de Multi-attention (MAB) et à stocker ces interactions dans la mémoire hybride d'un composant récurrent appelé la Mémoire Hybride à Court et Long Terme (LSTHM). Nous effectuons des comparaisons approfondies sur six ensembles de données publiquement disponibles pour l'analyse sentimentale multimodale, la reconnaissance des traits oraux des locuteurs et la reconnaissance émotionnelle. Le MARN montre des performances de pointe sur tous les ensembles de données.