Amélioration de la reconnaissance émotionnelle vocale grâce à la recherche d'architecture différentiable

La reconnaissance émotionnelle dans la parole (Speech Emotion Recognition, SER) constitue un pilier fondamental de la communication consciente des émotions dans les interactions homme-machine. Les progrès récents en apprentissage profond (Deep Learning, DL) ont considérablement amélioré les performances des modèles SER grâce à une complexité accrue des architectures. Toutefois, la conception d'architectures DL optimales exige une expérience préalable ainsi que des évaluations expérimentales. Heureusement, la recherche d'architecture neuronale (Neural Architecture Search, NAS) offre une voie prometteuse pour déterminer automatiquement un modèle DL optimal. En particulier, la recherche d'architecture différentiable (Differentiable Architecture Search, DARTS) est une méthode efficace pour appliquer la NAS à la recherche de modèles optimisés. Ce papier propose une architecture conjointe CNN et LSTM optimisée par DARTS, afin d'améliorer les performances de la SER, en s'appuyant sur la littérature pour guider le couplage entre CNN et LSTM, afin d'obtenir des résultats améliorés. Bien que DARTS ait déjà été appliqué à des combinaisons CNN-LSTM, notre approche introduit un mécanisme novateur, notamment dans la sélection des opérations CNN par DARTS. Contrairement aux études antérieures, nous ne fixons pas de contraintes sur l'ordre des couches du CNN au sein de la cellule DARTS ; au contraire, nous permettons à DARTS de déterminer de manière autonome l'ordre optimal des couches. En expérimentant sur les jeux de données IEMOCAP et MSP-IMPROV, nous démontrons que notre méthode proposée atteint une précision de SER significativement supérieure à celle obtenue par une conception manuelle de la configuration CNN-LSTM. Elle dépasse également les meilleurs résultats rapportés jusqu'ici pour la SER utilisant DARTS sur des architectures CNN-LSTM.