HyperAIHyperAI

Command Palette

Search for a command to run...

Multiskaliger Audio-Spektrogramm-Transformer für eine effiziente Audio-Klassifikation

Wentao Zhu Mohamed Omar

Zusammenfassung

Audio-Events weisen sowohl im Zeit- als auch im Frequenzbereich eine hierarchische Architektur auf und können zusammengefasst werden, um abstraktere semantische Audio-Klassen zu bilden. In dieser Arbeit entwickeln wir einen Multiskalen-Audio-Spektrogramm-Transformer (MAST), der hierarchisches Repräsentationslernen für eine effiziente Audio-Klassifikation nutzt. Konkret setzt MAST eindimensionale (und zweidimensionale) Pooling-Operatoren entlang der Zeitachse (bzw. der Frequenzachse) in verschiedenen Stufen ein und reduziert schrittweise die Anzahl der Tokens, während gleichzeitig die Dimensionen der Merkmale erhöht werden. MAST übertrifft AST~\cite{gong2021ast} hinsichtlich der Top-1-Accuracy signifikant um 22,2 %, 4,4 % und 4,7 % auf den Datensätzen Kinetics-Sounds, Epic-Kitchens-100 und VGGSound, ohne externe Trainingsdaten zu verwenden. Auf dem heruntergeladenen AudioSet-Datensatz, der über 20 % fehlende Audiodaten aufweist, erzielt MAST zudem eine leicht bessere Genauigkeit als AST. Zudem ist MAST im Vergleich zu AST um das Fünffache effizienter hinsichtlich der Multiply-Accumulate-Operationen (MACs) und weist eine Reduktion der Parameteranzahl um 42 % auf. Anhand von Clustering-Metriken und Visualisierungen zeigen wir, dass der vorgeschlagene MAST semantisch trennbarere Merkmalsrepräsentationen aus Audio-Signalen lernen kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp