HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

DTF-AT: Decoupled Time-Frequency Audio Transformer für die Ereignisklassifikation

{Philip JB Jackson Muhammad Awais Armin Mustafa Sara Ahmed Tony Alex}

Abstract

Kürzlich haben sich Convolutional Neural Networks (CNNs) und auf Transformers basierende Netzwerke aufgrund ihrer breiten Anwendung im Bereich der Computer Vision erheblicher Aufmerksamkeit für verschiedene Aufgaben der Audio-Klassifikation und -Tagging erfreut. Trotz der Unterschiede in der Informationsverteilung zwischen Audio-Spektrogrammen und natürlichen Bildern wurde bisher nur begrenzt nach effektiven Methoden zur Informationsgewinnung aus Spektrogrammen mittels domain-spezifischer Schichten geforscht, die speziell für den Audio-Bereich optimiert sind. In diesem Artikel nutzen wir die Stärken des Multi-Axis Vision Transformers (MaxViT), um DTF-AT (Decoupled Time-Frequency Audio Transformer) zu entwickeln, welches die Interaktionen über Zeit-, Frequenz-, räumliche und Kanaldimensionen hinweg ermöglicht. Die vorgeschlagene DTF-AT-Architektur wird anhand verschiedener Audio- und Sprachklassifikationsaufgaben gründlich evaluiert und etabliert dabei konsistent neue Benchmarks für die derzeit beste (SOTA) Leistung. Insbesondere zeigt unsere Methode auf der anspruchsvollen AudioSet 2M-Klassifikationsaufgabe eine erhebliche Verbesserung um 4,4 %, wenn das Modell von Grund auf trainiert wird, und um 3,2 %, wenn es mit Gewichten initialisiert wird, die aus einem ImageNet-1K-prätrainierten Modell stammen. Zudem präsentieren wir umfassende Ablationsstudien, um die Wirkung und Effektivität unseres Ansatzes zu untersuchen. Der Quellcode und die vortrainierten Gewichte sind unter https://github.com/ta012/DTFAT.git verfügbar.

Benchmarks

BenchmarkMethodikMetriken
audio-classification-on-audiosetDTF-AT (Single)
Test mAP: 0.486

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DTF-AT: Decoupled Time-Frequency Audio Transformer für die Ereignisklassifikation | Forschungsarbeiten | HyperAI