HyperAIHyperAI

Command Palette

Search for a command to run...

AST : Transformateur de spectrogramme audio

Yuan Gong Yu-An Chung James Glass

Résumé

Au cours de la dernière décennie, les réseaux de neurones convolutifs (CNN) ont été largement adoptés comme composant fondamental des modèles de classification audio « end-to-end », dont l’objectif est d’apprendre une application directe des spectrogrammes audio vers leurs étiquettes correspondantes. Afin de mieux capturer le contexte global à longue portée, une tendance récente consiste à ajouter un mécanisme d’attention auto-supervisée au-dessus du CNN, formant ainsi un modèle hybride CNN-attention. Toutefois, il reste incertain que la dépendance au CNN soit nécessaire, ou si des réseaux de neurones entièrement basés sur l’attention sont suffisants pour atteindre de bonnes performances en classification audio. Dans ce papier, nous répondons à cette question en introduisant le Audio Spectrogram Transformer (AST), le premier modèle de classification audio exempt de convolution et entièrement fondé sur l’attention. Nous évaluons AST sur diverses benchmarks de classification audio, où il atteint de nouveaux résultats état-de-l’art : 0,485 mAP sur AudioSet, 95,6 % de précision sur ESC-50 et 98,1 % de précision sur Speech Commands V2.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp