HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

CoordViT : Une nouvelle méthode d'amélioration de la reconnaissance émotionnelle vocale basée sur les Transformateurs d'images en intégrant des informations de coordonnées par concaténation

{Seung-Ho Lee Jeongyoon Kim}

Résumé

Récemment, dans le domaine de la reconnaissance émotionnelle par la parole, une méthode fondée sur le Transformer, qui utilise des images de spectrogrammes au lieu de données audio brutes, a démontré une précision supérieure à celle des réseaux de neurones convolutifs (CNN). Le Vision Transformer (ViT), une approche basée sur le Transformer, atteint une haute précision de classification en exploitant des patches divisés à partir de l'image d'entrée ; toutefois, il présente un inconvénient majeur : l'information de position des pixels est perdue en raison des couches d'embedding, telles que la projection linéaire. Dans ce travail, nous proposons une nouvelle méthode visant à améliorer la reconnaissance émotionnelle de la parole basée sur ViT en intégrant des informations de coordonnées. En concaténant les coordonnées spatiales aux données d'entrée, la méthode proposée préserve l'information de position des pixels, ce qui permet d’atteindre une précision de 82,96 % sur le jeu de données CREMA-D, une amélioration significative par rapport à l’état de l’art sur ce corpus. Ces résultats démontrent l’efficacité de la concaténation d’informations de coordonnées non seulement pour les CNN, mais également pour les Transformers.

Benchmarks

BenchmarkMéthodologieMétriques
speech-emotion-recognition-on-crema-dCoordViT
Accuracy: 82.96

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp