MultiMAE-DER : Multimodal Masked Autoencoder pour la Reconnaissance Dynamique des Émotions

Ce document présente une nouvelle approche pour le traitement de données multimodales destinées à la reconnaissance dynamique des émotions, nommée Multimodal Masked Autoencoder for Dynamic Emotion Recognition (MultiMAE-DER). Le MultiMAE-DER exploite les informations de représentation étroitement corrélées au sein des séquences spatio-temporelles dans les modalités visuelle et auditive. En utilisant un modèle d'autoencodeur masqué pré-entraîné, le MultiMAE-DER est réalisé par un ajustement fin simple et direct. Les performances du MultiMAE-DER sont améliorées en optimisant six stratégies de fusion pour les séquences d'entrée multimodales. Ces stratégies abordent les corrélations de caractéristiques dynamiques au sein des données inter-domaines, couvrant les séquences spatiales, temporelles et spatio-temporelles. Comparativement aux modèles d'apprentissage supervisé multimodal de pointe pour la reconnaissance dynamique des émotions, le MultiMAE-DER augmente le rappel moyen pondéré (WAR) de 4,41 % sur l'ensemble de données RAVDESS et de 2,06 % sur l'ensemble de données CREMAD. De plus, comparé au modèle d'apprentissage auto-supervisé multimodal de pointe, le MultiMAE-DER obtient un WAR supérieur de 1,86 % sur l'ensemble de données IEMOCAP.