Réseau neuronal adversarial domaine dépendant du contexte pour la reconnaissance multimodale des émotions
La reconnaissance des émotions reste une tâche complexe en raison des variations entre locuteurs et du faible nombre d’échantillons d’entraînement disponibles. Pour surmonter ces difficultés, nous nous concentrons sur les réseaux neuronaux adverses de domaine (DANN) pour la reconnaissance des émotions. La tâche principale consiste à prédire les étiquettes émotionnelles, tandis que la tâche secondaire vise à apprendre une représentation commune dans laquelle les identités des locuteurs ne peuvent pas être distinguées. Grâce à cette approche, nous rapprochons les représentations des différents locuteurs. Par ailleurs, en exploitant les données non étiquetées durant le processus d’entraînement, nous atténuons l’impact du faible volume d’échantillons d’entraînement. Par ailleurs, des travaux antérieurs ont montré que les informations contextuelles et les caractéristiques multimodales sont essentielles pour la reconnaissance des émotions. Toutefois, les approches DANN antérieures négligent ces informations, ce qui limite leur performance. Dans cet article, nous proposons un réseau neuronal adversaire de domaine dépendant du contexte pour la reconnaissance multimodale des émotions. Pour valider l’efficacité de notre méthode, nous menons des expériences sur le jeu de données standard IEMOCAP. Les résultats expérimentaux démontrent que la méthode proposée obtient une amélioration absolue de 3,48 % par rapport aux stratégies les plus avancées.