HyperAIHyperAI
vor 15 Tagen

Multiskaliger Audio-Spektrogramm-Transformer für eine effiziente Audio-Klassifikation

Wentao Zhu, Mohamed Omar
Multiskaliger Audio-Spektrogramm-Transformer für eine effiziente Audio-Klassifikation
Abstract

Audio-Events weisen sowohl im Zeit- als auch im Frequenzbereich eine hierarchische Architektur auf und können zusammengefasst werden, um abstraktere semantische Audio-Klassen zu bilden. In dieser Arbeit entwickeln wir einen Multiskalen-Audio-Spektrogramm-Transformer (MAST), der hierarchisches Repräsentationslernen für eine effiziente Audio-Klassifikation nutzt. Konkret setzt MAST eindimensionale (und zweidimensionale) Pooling-Operatoren entlang der Zeitachse (bzw. der Frequenzachse) in verschiedenen Stufen ein und reduziert schrittweise die Anzahl der Tokens, während gleichzeitig die Dimensionen der Merkmale erhöht werden. MAST übertrifft AST~\cite{gong2021ast} hinsichtlich der Top-1-Accuracy signifikant um 22,2 %, 4,4 % und 4,7 % auf den Datensätzen Kinetics-Sounds, Epic-Kitchens-100 und VGGSound, ohne externe Trainingsdaten zu verwenden. Auf dem heruntergeladenen AudioSet-Datensatz, der über 20 % fehlende Audiodaten aufweist, erzielt MAST zudem eine leicht bessere Genauigkeit als AST. Zudem ist MAST im Vergleich zu AST um das Fünffache effizienter hinsichtlich der Multiply-Accumulate-Operationen (MACs) und weist eine Reduktion der Parameteranzahl um 42 % auf. Anhand von Clustering-Metriken und Visualisierungen zeigen wir, dass der vorgeschlagene MAST semantisch trennbarere Merkmalsrepräsentationen aus Audio-Signalen lernen kann.

Multiskaliger Audio-Spektrogramm-Transformer für eine effiziente Audio-Klassifikation | Neueste Forschungsarbeiten | HyperAI