il y a 2 mois

Apprentissage audiovisuel polyvalent pour la reconnaissance des émotions

Lucas Goncalves; Seong-Gyun Leem; Wei-Cheng Lin; Berrak Sisman; Carlos Busso

Résumé

La plupart des modèles actuels de reconnaissance émotionnelle audiovisuelle manquent de la flexibilité nécessaire pour être déployés dans des applications pratiques. Nous envisageons un système multimodal capable de fonctionner même lorsque seule une modalité est disponible et qui peut être mis en œuvre de manière interchangeable pour prédire des attributs émotionnels ou reconnaître des émotions catégorielles. Atteindre une telle flexibilité dans un système de reconnaissance émotionnelle multimodal est difficile en raison des défis inhérents à l'interprétation précise et à l'intégration de sources de données variées. Il est également un défi de gérer robustement les informations manquantes ou partielles tout en permettant le passage direct entre les tâches de régression ou de classification. Cette étude propose un cadre d'apprentissage audiovisuel polyvalent (VAVL) pour traiter les systèmes unimodaux et multimodaux dans le cadre des tâches de régression ou de classification émotionnelle. Nous mettons en œuvre un cadre audiovisuel qui peut être formé même lorsque des données audio et visuelles appariées ne sont pas disponibles pour une partie du jeu d'entraînement (c'est-à-dire que seul l'audio ou seulement la vidéo est présent). Nous réalisons cet apprentissage efficace de représentations grâce à des couches partagées audiovisuelles, des connexions résiduelles sur ces couches partagées et une tâche de reconstruction unimodale. Nos résultats expérimentaux montrent que notre architecture surpasse significativement les lignes de base solides sur les corpus CREMA-D, MSP-IMPROV et CMU-MOSEI. Notamment, VAVL atteint une nouvelle performance d'état de l'art dans la tâche de prédiction d'attributs émotionnels sur le corpus MSP-IMPROV.