il y a 17 jours
Fusion modulée basée sur Transformer pour la reconnaissance émotionnelle linguistique-acoustique
Jean-Benoit Delbrouck, Noé Tits, Stéphane Dupont

Résumé
Cette étude vise à proposer une nouvelle solution légère mais puissante pour la reconnaissance des émotions et l’analyse du sentiment. Motivés par l’objectif de dépasser les performances actuelles, nous proposons deux architectures fondées sur les Transformers et la modulation, combinant des entrées linguistiques et acoustiques issues d’un large éventail de jeux de données afin de relever, voire dépasser, l’état de l’art dans ce domaine. Pour démontrer l’efficacité de nos modèles, nous évaluons soigneusement leurs performances sur les jeux de données IEMOCAP, MOSI, MOSEI et MELD. Les expériences sont entièrement reproductibles, et le code source est pleinement ouvert pour favoriser les recherches futures.