HyperAIHyperAI
il y a 11 jours

Un algorithme d’extension de décomposition en modes variationnels améliorant les performances de reconnaissance des émotions vocales

David Hason Rudd, Huan Huo, Guandong Xu
Un algorithme d’extension de décomposition en modes variationnels améliorant les performances de reconnaissance des émotions vocales
Résumé

La reconnaissance des émotions (ER) à partir de signaux vocaux constitue une approche robuste, car elle ne peut pas être imitée comme l’expression faciale ou l’analyse du sentiment basée sur le texte. Les informations précieuses sous-jacentes aux émotions sont essentielles pour les interactions homme-machine, permettant aux systèmes intelligents d’interagir avec une sensibilité adaptée dans le monde réel. Les études antérieures sur l’ER par traitement des signaux vocaux se sont concentrées exclusivement sur les associations entre différentes méthodes de décomposition de modes et les caractéristiques informatives cachées. Toutefois, un choix inapproprié des paramètres de décomposition entraîne une perte de composantes signal significatives en raison de la duplication et du mélange des modes. À l’inverse, cette étude propose VGG-optiVMD, un algorithme amélioré de décomposition par modes variationnels, capable de distinguer efficacement les caractéristiques pertinentes du signal vocal et de sélectionner automatiquement le nombre optimal de modes décomposés ainsi que le paramètre d’équilibrage optimal pour la contrainte de fidélité aux données, en évaluant leurs effets sur la couche de plongement (flattening) du réseau VGG16. Divers vecteurs de caractéristiques ont été utilisés pour entraîner le réseau VGG16 sur différentes bases de données, afin d’évaluer la reproductibilité et la fiabilité de VGG-optiVMD. Des vecteurs de caractéristiques unidimensionnels, bidimensionnels et tridimensionnels ont été construits par concaténation des coefficients cepstraux de fréquence Mel (MFCC), des chromagrammes, des spectrogrammes Mel, des diagrammes Tonnetz et des centroïdes spectraux. Les résultats ont confirmé une relation synergique entre le réglage fin du taux d’échantillonnage du signal et des paramètres de décomposition, avec une précision de classification atteignant un niveau de pointe de 96,09 % dans la prédiction de sept émotions sur la base de données Berlin EMO-DB.

Un algorithme d’extension de décomposition en modes variationnels améliorant les performances de reconnaissance des émotions vocales | Articles de recherche récents | HyperAI