Command Palette
Search for a command to run...
Architecture CNN+LSTM pour la reconnaissance émotionnelle de la parole avec augmentation de données
Architecture CNN+LSTM pour la reconnaissance émotionnelle de la parole avec augmentation de données
Caroline Etienne Guillaume Fidanza Andrei Petrovskii Laurence Devillers Benoît Schmauch
Résumé
Dans cette étude, nous concevons un réseau neuronal destiné à reconnaître les émotions dans la parole, en utilisant le jeu de données IEMOCAP. En nous appuyant sur les derniers progrès en analyse audio, nous adoptons une architecture combinant des couches de convolution pour extraire des caractéristiques de haut niveau à partir de spectrogrammes bruts et des couches récurrentes pour agréger des dépendances à long terme. Nous examinons les techniques d'augmentation de données par perturbation de la longueur du timbre vocal, d'ajustement optimiseur couche par couche, et de normalisation par lots des couches récurrentes, obtenant ainsi des résultats très compétitifs avec une précision pondérée de 64,5 % et une précision non pondérée de 61,7 % sur quatre émotions.