HyperAIHyperAI

Command Palette

Search for a command to run...

Analyse émotionnelle multi-étiquette dans les conversations par distillation de connaissance multimodale

Junsong Yuan Sreyasee Das Bhattacharjee Naresh Kumar Devulapally Sidharth Anand

Résumé

L’évaluation de l’émotion du locuteur dans les interactions conversationnelles est essentielle pour de nombreuses applications nécessitant une interaction homme-machine. Toutefois, la co-occurrence de plusieurs états émotionnels (par exemple, « colère » et « frustration » pouvant survenir simultanément ou s’influencer mutuellement) ainsi que leur évolution dynamique peuvent varier considérablement en fonction du contexte interne du locuteur (par exemple, influence de son contexte socio-culturel, éducatif et démographique personnalisé) et du contexte externe. Jusqu’à présent, les recherches se sont principalement concentrées sur l’évaluation de l’émotion dominante observée à un instant donné, ce qui rend les décisions de classification susceptibles d’être trompeuses dans des cas complexes à plusieurs étiquettes lors des tests. Dans ce travail, nous proposons une méthode d’apprentissage auto-supervisé à étiquetage multiple par distillation collaborative entre pairs, appelée SeMuL-PCD, basée sur un réseau Transformer multimodal efficace. Dans cette approche, les retours complémentaires provenant de plusieurs réseaux pairs spécifiques à chaque modalité (texte, audio, visuel) sont distillés dans un unique réseau de fusion multimodal afin d’estimer simultanément plusieurs émotions. La perte de distillation multimodale proposée calibre le réseau de fusion en minimisant la divergence de Kullback-Leibler entre ce dernier et les réseaux pairs. En outre, chaque réseau pair est conditionné par une objectif contrastif auto-supervisé afin d’améliorer la généralisation sur des profils de locuteurs diversifiés sur le plan socio-démographique. En permettant un apprentissage collaboratif entre pairs, où chaque réseau apprend indépendamment ses motifs discriminants propres à sa modalité, SeMuL-PCD s’avère efficace dans divers environnements conversationnels. En particulier, le modèle dépasse les états de l’art actuels sur plusieurs grandes bases de données publiques (par exemple, MOSEI, EmoReact et ElderReact), avec une amélioration d’environ 17 % du score F1 pondéré dans les expérimentations trans-datasets. Le modèle démontre également une capacité remarquable de généralisation sur des populations diverses en âge et en caractéristiques démographiques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp