HyperAIHyperAI

Command Palette

Search for a command to run...

CoordViT : Une nouvelle méthode d'amélioration de la reconnaissance émotionnelle vocale basée sur les Transformateurs d'images en intégrant des informations de coordonnées par concaténation

Seung-Ho Lee Jeongyoon Kim

Résumé

Récemment, dans le domaine de la reconnaissance émotionnelle par la parole, une méthode fondée sur le Transformer, qui utilise des images de spectrogrammes au lieu de données audio brutes, a démontré une précision supérieure à celle des réseaux de neurones convolutifs (CNN). Le Vision Transformer (ViT), une approche basée sur le Transformer, atteint une haute précision de classification en exploitant des patches divisés à partir de l'image d'entrée ; toutefois, il présente un inconvénient majeur : l'information de position des pixels est perdue en raison des couches d'embedding, telles que la projection linéaire. Dans ce travail, nous proposons une nouvelle méthode visant à améliorer la reconnaissance émotionnelle de la parole basée sur ViT en intégrant des informations de coordonnées. En concaténant les coordonnées spatiales aux données d'entrée, la méthode proposée préserve l'information de position des pixels, ce qui permet d’atteindre une précision de 82,96 % sur le jeu de données CREMA-D, une amélioration significative par rapport à l’état de l’art sur ce corpus. Ces résultats démontrent l’efficacité de la concaténation d’informations de coordonnées non seulement pour les CNN, mais également pour les Transformers.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
CoordViT : Une nouvelle méthode d'amélioration de la reconnaissance émotionnelle vocale basée sur les Transformateurs d'images en intégrant des informations de coordonnées par concaténation | Articles | HyperAI