HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de la reconnaissance émotionnelle vocale grâce à la recherche d'architecture différentiable

Thejan Rajapakshe Rajib Rana Sara Khalifa Berrak Sisman Björn Schuller

Résumé

La reconnaissance émotionnelle dans la parole (Speech Emotion Recognition, SER) constitue un pilier fondamental de la communication consciente des émotions dans les interactions homme-machine. Les progrès récents en apprentissage profond (Deep Learning, DL) ont considérablement amélioré les performances des modèles SER grâce à une complexité accrue des architectures. Toutefois, la conception d'architectures DL optimales exige une expérience préalable ainsi que des évaluations expérimentales. Heureusement, la recherche d'architecture neuronale (Neural Architecture Search, NAS) offre une voie prometteuse pour déterminer automatiquement un modèle DL optimal. En particulier, la recherche d'architecture différentiable (Differentiable Architecture Search, DARTS) est une méthode efficace pour appliquer la NAS à la recherche de modèles optimisés. Ce papier propose une architecture conjointe CNN et LSTM optimisée par DARTS, afin d'améliorer les performances de la SER, en s'appuyant sur la littérature pour guider le couplage entre CNN et LSTM, afin d'obtenir des résultats améliorés. Bien que DARTS ait déjà été appliqué à des combinaisons CNN-LSTM, notre approche introduit un mécanisme novateur, notamment dans la sélection des opérations CNN par DARTS. Contrairement aux études antérieures, nous ne fixons pas de contraintes sur l'ordre des couches du CNN au sein de la cellule DARTS ; au contraire, nous permettons à DARTS de déterminer de manière autonome l'ordre optimal des couches. En expérimentant sur les jeux de données IEMOCAP et MSP-IMPROV, nous démontrons que notre méthode proposée atteint une précision de SER significativement supérieure à celle obtenue par une conception manuelle de la configuration CNN-LSTM. Elle dépasse également les meilleurs résultats rapportés jusqu'ici pour la SER utilisant DARTS sur des architectures CNN-LSTM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Amélioration de la reconnaissance émotionnelle vocale grâce à la recherche d'architecture différentiable | Articles | HyperAI