il y a 2 mois

Combinaison de caractéristiques profondes et non supervisées pour la reconnaissance émotionnelle de la parole multilingue

{Roberto Tedesco, Licia Sbattella, Federico Galati, Vincenzo Scotti}

Résumé

Dans cet article, nous présentons un réseau de neurones convolutif pour la reconnaissance d’émotions multilingue à partir de phrases parlées. L’objectif de ce travail était de concevoir un modèle capable de détecter les émotions en combinant des informations textuelles et acoustiques, tout en étant compatible avec plusieurs langues. Le modèle que nous proposons possède une architecture profonde end-to-end, ce qui lui permet de traiter directement des données brutes textuelles et audio, en utilisant des couches convolutives pour extraire une hiérarchie de caractéristiques discriminantes. De plus, nous démontrons que le modèle entraîné atteint de bonnes performances dans différentes langues grâce à l’utilisation de caractéristiques textuelles non supervisées multilingues. À titre complémentaire, il convient de souligner que notre approche ne nécessite pas d’alignement au niveau des mots ou des phonèmes entre le texte et l’audio. Le modèle proposé, PATHOSnet, a été entraîné et évalué sur plusieurs corpus contenant des langues parlées différentes (IEMOCAP, EmoFilm, SES et AESI). Avant l’entraînement, les hyperparamètres ont été optimisés uniquement sur le corpus IEMOCAP, qui fournit des enregistrements audio réalistes et des transcriptions de phrases portant des contenus émotionnels en anglais. Le modèle final s’est révélé offrir des performances de pointe sur certaines des bases de données sélectionnées, pour les quatre émotions considérées.