HyperAIHyperAI

Command Palette

Search for a command to run...

AST: Audio Spectrogram Transformer

Yuan Gong Yu-An Chung James Glass

Zusammenfassung

In den letzten zehn Jahren wurden Faltungsneuronale Netze (CNNs) weitgehend als zentrale Bausteine für end-to-end-Audio-Klassifikationsmodelle eingesetzt, die darauf abzielen, eine direkte Abbildung von Audio-Spektrogrammen auf entsprechende Labels zu lernen. Um einen besseren Zugriff auf langreichweitige globale Kontextinformationen zu ermöglichen, hat sich in jüngster Zeit die Tendenz durchgesetzt, eine Selbst-Attention-Mechanismus oberhalb der CNNs zu integrieren, was zu hybriden CNN-Attention-Modellen führt. Es ist jedoch unklar, ob die Abhängigkeit von CNNs notwendig ist oder ob rein auf Attention basierende neuronale Netzwerke ausreichen, um eine hohe Leistung in der Audio-Klassifikation zu erzielen. In dieser Arbeit beantworten wir diese Frage, indem wir den Audio Spectrogram Transformer (AST) einführen – das erste convolution-free, rein auf Attention basierende Modell für die Audio-Klassifikation. Wir evaluieren AST an verschiedenen Benchmarks für Audio-Klassifikation, wobei er neue SOTA-Ergebnisse erzielt: 0,485 mAP auf AudioSet, 95,6 % Genauigkeit auf ESC-50 und 98,1 % Genauigkeit auf Speech Commands V2.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp