HyperAIHyperAI

Command Palette

Search for a command to run...

Architecture CNN+LSTM pour la reconnaissance émotionnelle de la parole avec augmentation de données

Caroline Etienne Guillaume Fidanza Andrei Petrovskii Laurence Devillers Benoît Schmauch

Résumé

Dans cette étude, nous concevons un réseau neuronal destiné à reconnaître les émotions dans la parole, en utilisant le jeu de données IEMOCAP. En nous appuyant sur les derniers progrès en analyse audio, nous adoptons une architecture combinant des couches de convolution pour extraire des caractéristiques de haut niveau à partir de spectrogrammes bruts et des couches récurrentes pour agréger des dépendances à long terme. Nous examinons les techniques d'augmentation de données par perturbation de la longueur du timbre vocal, d'ajustement optimiseur couche par couche, et de normalisation par lots des couches récurrentes, obtenant ainsi des résultats très compétitifs avec une précision pondérée de 64,5 % et une précision non pondérée de 61,7 % sur quatre émotions.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Architecture CNN+LSTM pour la reconnaissance émotionnelle de la parole avec augmentation de données | Articles | HyperAI