Analyse émotionnelle multi-étiquette dans les conversations par distillation de connaissance multimodale

L’évaluation de l’émotion du locuteur dans les interactions conversationnelles est essentielle pour de nombreuses applications nécessitant une interaction homme-machine. Toutefois, la co-occurrence de plusieurs états émotionnels (par exemple, « colère » et « frustration » pouvant survenir simultanément ou s’influencer mutuellement) ainsi que leur évolution dynamique peuvent varier considérablement en fonction du contexte interne du locuteur (par exemple, influence de son contexte socio-culturel, éducatif et démographique personnalisé) et du contexte externe. Jusqu’à présent, les recherches se sont principalement concentrées sur l’évaluation de l’émotion dominante observée à un instant donné, ce qui rend les décisions de classification susceptibles d’être trompeuses dans des cas complexes à plusieurs étiquettes lors des tests. Dans ce travail, nous proposons une méthode d’apprentissage auto-supervisé à étiquetage multiple par distillation collaborative entre pairs, appelée SeMuL-PCD, basée sur un réseau Transformer multimodal efficace. Dans cette approche, les retours complémentaires provenant de plusieurs réseaux pairs spécifiques à chaque modalité (texte, audio, visuel) sont distillés dans un unique réseau de fusion multimodal afin d’estimer simultanément plusieurs émotions. La perte de distillation multimodale proposée calibre le réseau de fusion en minimisant la divergence de Kullback-Leibler entre ce dernier et les réseaux pairs. En outre, chaque réseau pair est conditionné par une objectif contrastif auto-supervisé afin d’améliorer la généralisation sur des profils de locuteurs diversifiés sur le plan socio-démographique. En permettant un apprentissage collaboratif entre pairs, où chaque réseau apprend indépendamment ses motifs discriminants propres à sa modalité, SeMuL-PCD s’avère efficace dans divers environnements conversationnels. En particulier, le modèle dépasse les états de l’art actuels sur plusieurs grandes bases de données publiques (par exemple, MOSEI, EmoReact et ElderReact), avec une amélioration d’environ 17 % du score F1 pondéré dans les expérimentations trans-datasets. Le modèle démontre également une capacité remarquable de généralisation sur des populations diverses en âge et en caractéristiques démographiques.