DTF-AT: Decoupled Time-Frequency Audio Transformer für die Ereignisklassifikation
{Philip JB Jackson Muhammad Awais Armin Mustafa Sara Ahmed Tony Alex}
Abstract
Kürzlich haben sich Convolutional Neural Networks (CNNs) und auf Transformers basierende Netzwerke aufgrund ihrer breiten Anwendung im Bereich der Computer Vision erheblicher Aufmerksamkeit für verschiedene Aufgaben der Audio-Klassifikation und -Tagging erfreut. Trotz der Unterschiede in der Informationsverteilung zwischen Audio-Spektrogrammen und natürlichen Bildern wurde bisher nur begrenzt nach effektiven Methoden zur Informationsgewinnung aus Spektrogrammen mittels domain-spezifischer Schichten geforscht, die speziell für den Audio-Bereich optimiert sind. In diesem Artikel nutzen wir die Stärken des Multi-Axis Vision Transformers (MaxViT), um DTF-AT (Decoupled Time-Frequency Audio Transformer) zu entwickeln, welches die Interaktionen über Zeit-, Frequenz-, räumliche und Kanaldimensionen hinweg ermöglicht. Die vorgeschlagene DTF-AT-Architektur wird anhand verschiedener Audio- und Sprachklassifikationsaufgaben gründlich evaluiert und etabliert dabei konsistent neue Benchmarks für die derzeit beste (SOTA) Leistung. Insbesondere zeigt unsere Methode auf der anspruchsvollen AudioSet 2M-Klassifikationsaufgabe eine erhebliche Verbesserung um 4,4 %, wenn das Modell von Grund auf trainiert wird, und um 3,2 %, wenn es mit Gewichten initialisiert wird, die aus einem ImageNet-1K-prätrainierten Modell stammen. Zudem präsentieren wir umfassende Ablationsstudien, um die Wirkung und Effektivität unseres Ansatzes zu untersuchen. Der Quellcode und die vortrainierten Gewichte sind unter https://github.com/ta012/DTFAT.git verfügbar.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| audio-classification-on-audioset | DTF-AT (Single) | Test mAP: 0.486 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.