AST : Transformateur de spectrogramme audio

Au cours de la dernière décennie, les réseaux de neurones convolutifs (CNN) ont été largement adoptés comme composant fondamental des modèles de classification audio « end-to-end », dont l’objectif est d’apprendre une application directe des spectrogrammes audio vers leurs étiquettes correspondantes. Afin de mieux capturer le contexte global à longue portée, une tendance récente consiste à ajouter un mécanisme d’attention auto-supervisée au-dessus du CNN, formant ainsi un modèle hybride CNN-attention. Toutefois, il reste incertain que la dépendance au CNN soit nécessaire, ou si des réseaux de neurones entièrement basés sur l’attention sont suffisants pour atteindre de bonnes performances en classification audio. Dans ce papier, nous répondons à cette question en introduisant le Audio Spectrogram Transformer (AST), le premier modèle de classification audio exempt de convolution et entièrement fondé sur l’attention. Nous évaluons AST sur diverses benchmarks de classification audio, où il atteint de nouveaux résultats état-de-l’art : 0,485 mAP sur AudioSet, 95,6 % de précision sur ESC-50 et 98,1 % de précision sur Speech Commands V2.