emoDARTS : Optimisation conjointe des architectures de réseaux de neurones convolutifs et séquentiels pour une reconnaissance émotionnelle de la parole de haute performance

La reconnaissance d'émotions par la parole (Speech Emotion Recognition, SER) est essentielle pour permettre aux ordinateurs de comprendre les émotions véhiculées dans la communication humaine. Grâce aux récents progrès du deep learning (DL), les performances des modèles SER ont considérablement progressé. Toutefois, la conception d'une architecture DL optimale nécessite des connaissances spécialisées ainsi que des évaluations expérimentales. Heureusement, la recherche d'architecture neuronale (Neural Architecture Search, NAS) offre une solution potentielle pour déterminer automatiquement le meilleur modèle DL. La méthode DARTS (Differentiable Architecture Search) se distingue par son efficacité dans la découverte d'architectures optimales. Cette étude présente emoDARTS, une architecture conjointe CNN et réseau de neurones séquentiels (SeqNN : LSTM, RNN) optimisée par DARTS, conçue pour améliorer les performances de la SER. La littérature soutient l'approche combinant CNN et LSTM afin d'optimiser les résultats.Alors que DARTS a précédemment été utilisé pour sélectionner indépendamment les opérations CNN et LSTM, notre méthode introduit un mécanisme novateur permettant de sélectionner conjointement les opérations CNN et SeqNN via DARTS. Contrairement aux travaux antérieurs, nous ne fixons pas de contraintes sur l'ordre des couches du CNN. Au contraire, nous laissons DARTS déterminer l'ordre de couche optimal à l'intérieur de la cellule DARTS. Nous démontrons que emoDARTS surpasse les modèles CNN-LSTM classiquement conçus et dépasse également les meilleurs résultats rapportés jusqu'ici obtenus par DARTS sur CNN-LSTM, en évaluant notre approche sur les jeux de données IEMOCAP, MSP-IMPROV et MSP-Podcast.