HyperAIHyperAI
il y a 11 jours

Méthode d'amélioration de la précision de la reconnaissance des émotions vocales à partir de spectrogrammes en exploitant la corrélation temporelle-fréquentielle et l'apprentissage des informations positionnelles par transfert de connaissance

Jeong-Yoon Kim, Seung-Ho Lee
Méthode d'amélioration de la précision de la reconnaissance des émotions vocales à partir de spectrogrammes en exploitant la corrélation temporelle-fréquentielle et l'apprentissage des informations positionnelles par transfert de connaissance
Résumé

Dans cet article, nous proposons une méthode visant à améliorer la précision de la reconnaissance émotionnelle à partir de la parole (SER) en utilisant un Transformer visuel (ViT) pour modéliser la corrélation entre la fréquence (axe y) et le temps (axe x) dans un spectrogramme, tout en transférant efficacement des informations de position entre les modèles ViT par transfert de connaissances. La méthode proposée présente les originalités suivantes :i) Nous utilisons des patches segmentés verticalement à partir du spectrogramme log-Mel afin d’analyser la corrélation des fréquences au fil du temps. Ce type de découpage permet de relier les fréquences les plus pertinentes pour une émotion particulière à l’instant précis où elles sont émises.ii) Nous proposons l’utilisation d’un encodage par coordonnées d’image, une forme d’encodage de position absolue adaptée aux ViT. En normalisant les coordonnées x et y de l’image dans l’intervalle [-1, 1] et en les concaténant aux features d’image, nous fournissons efficacement des informations de position absolue valides au modèle ViT.iii) Grâce à un alignement des cartes de caractéristiques (feature map matching), les informations de localité et de position du réseau enseignant sont transmises de manière efficace au réseau étudiant. Le réseau enseignant est un ViT intégrant une structure convolutive (convolutional stem) pour capturer la localité spatiale, ainsi que des informations de position absolue via l’encodage par coordonnées d’image. Le réseau étudiant, quant à lui, est une architecture de base ViT privée d’encodage de position. Durant la phase d’alignement des cartes de caractéristiques, l’apprentissage est réalisé en minimisant l’erreur absolue moyenne (perte L1) entre les cartes de caractéristiques des deux réseaux. Pour valider la méthode proposée, trois jeux de données d’émotions (SAVEE, EmoDB et CREMA-D) composés de paroles ont été convertis en spectrogrammes log-Mel afin de réaliser des expériences comparatives. Les résultats expérimentaux montrent que la méthode proposée dépasse significativement les approches de pointe en termes de précision pondérée, tout en nécessitant un nombre nettement réduit d’opérations à virgule flottante (FLOPs). Globalement, la méthode proposée offre une solution prometteuse pour la SER en combinant une meilleure efficacité et des performances améliorées.

Méthode d'amélioration de la précision de la reconnaissance des émotions vocales à partir de spectrogrammes en exploitant la corrélation temporelle-fréquentielle et l'apprentissage des informations positionnelles par transfert de connaissance | Articles de recherche récents | HyperAI