CoordViT : Une nouvelle méthode d'amélioration de la reconnaissance émotionnelle vocale basée sur les Transformateurs d'images en intégrant des informations de coordonnées par concaténation
Récemment, dans le domaine de la reconnaissance émotionnelle par la parole, une méthode fondée sur le Transformer, qui utilise des images de spectrogrammes au lieu de données audio brutes, a démontré une précision supérieure à celle des réseaux de neurones convolutifs (CNN). Le Vision Transformer (ViT), une approche basée sur le Transformer, atteint une haute précision de classification en exploitant des patches divisés à partir de l'image d'entrée ; toutefois, il présente un inconvénient majeur : l'information de position des pixels est perdue en raison des couches d'embedding, telles que la projection linéaire. Dans ce travail, nous proposons une nouvelle méthode visant à améliorer la reconnaissance émotionnelle de la parole basée sur ViT en intégrant des informations de coordonnées. En concaténant les coordonnées spatiales aux données d'entrée, la méthode proposée préserve l'information de position des pixels, ce qui permet d’atteindre une précision de 82,96 % sur le jeu de données CREMA-D, une amélioration significative par rapport à l’état de l’art sur ce corpus. Ces résultats démontrent l’efficacité de la concaténation d’informations de coordonnées non seulement pour les CNN, mais également pour les Transformers.