Intégration des dynamiques de récurrence pour la reconnaissance émotionnelle de la parole

Nous examinons les performances des caractéristiques capables de capturer les dynamiques de récurrence non linéaire intégrées dans le signal vocal pour la tâche de Reconnaissance Émotionnelle par la Parole (REP). La reconstruction de l'espace des phases de chaque trame vocale et le calcul de son diagramme de récurrence respectif (Recurrence Plot, RP) mettent en évidence des structures complexes qui peuvent être quantifiées par une Analyse Quantitative de Récurrence (Recurrence Quantification Analysis, RQA). Ces mesures sont agrégées en utilisant des fonctionnelles statistiques sur les périodes segmentaires et d'énoncé. Nous présentons les résultats de REP pour l'ensemble de caractéristiques proposé sur trois bases de données en utilisant différentes méthodes de classification. Lorsque nous combinons ces caractéristiques proposées avec des ensembles traditionnels, nous montrons une amélioration de la précision non pondérée allant jusqu'à 5,7 % et 10,7 % pour les tâches de REP dépendantes du locuteur (Speaker-Dependent, SD) et indépendantes du locuteur (Speaker-Independent, SI), respectivement, par rapport à la ligne de base. En suivant une approche basée sur les segments, nous démontrons des performances d'état de l'art sur IEMOCAP en utilisant un Réseau Neuronal Récurent Bidirectionnel.