HyperAIHyperAI
vor 11 Tagen

AST: Audio Spectrogram Transformer

Yuan Gong, Yu-An Chung, James Glass
AST: Audio Spectrogram Transformer
Abstract

In den letzten zehn Jahren wurden Faltungsneuronale Netze (CNNs) weitgehend als zentrale Bausteine für end-to-end-Audio-Klassifikationsmodelle eingesetzt, die darauf abzielen, eine direkte Abbildung von Audio-Spektrogrammen auf entsprechende Labels zu lernen. Um einen besseren Zugriff auf langreichweitige globale Kontextinformationen zu ermöglichen, hat sich in jüngster Zeit die Tendenz durchgesetzt, eine Selbst-Attention-Mechanismus oberhalb der CNNs zu integrieren, was zu hybriden CNN-Attention-Modellen führt. Es ist jedoch unklar, ob die Abhängigkeit von CNNs notwendig ist oder ob rein auf Attention basierende neuronale Netzwerke ausreichen, um eine hohe Leistung in der Audio-Klassifikation zu erzielen. In dieser Arbeit beantworten wir diese Frage, indem wir den Audio Spectrogram Transformer (AST) einführen – das erste convolution-free, rein auf Attention basierende Modell für die Audio-Klassifikation. Wir evaluieren AST an verschiedenen Benchmarks für Audio-Klassifikation, wobei er neue SOTA-Ergebnisse erzielt: 0,485 mAP auf AudioSet, 95,6 % Genauigkeit auf ESC-50 und 98,1 % Genauigkeit auf Speech Commands V2.

AST: Audio Spectrogram Transformer | Neueste Forschungsarbeiten | HyperAI