HyperAI

Kürzlich haben sich Convolutional Neural Networks (CNNs) und auf Transformers basierende Netzwerke aufgrund ihrer breiten Anwendung im Bereich der Computer Vision erheblicher Aufmerksamkeit für verschiedene Aufgaben der Audio-Klassifikation und -Tagging erfreut. Trotz der Unterschiede in der Informationsverteilung zwischen Audio-Spektrogrammen und natürlichen Bildern wurde bisher nur begrenzt nach effektiven Methoden zur Informationsgewinnung aus Spektrogrammen mittels domain-spezifischer Schichten geforscht, die speziell für den Audio-Bereich optimiert sind. In diesem Artikel nutzen wir die Stärken des Multi-Axis Vision Transformers (MaxViT), um DTF-AT (Decoupled Time-Frequency Audio Transformer) zu entwickeln, welches die Interaktionen über Zeit-, Frequenz-, räumliche und Kanaldimensionen hinweg ermöglicht. Die vorgeschlagene DTF-AT-Architektur wird anhand verschiedener Audio- und Sprachklassifikationsaufgaben gründlich evaluiert und etabliert dabei konsistent neue Benchmarks für die derzeit beste (SOTA) Leistung. Insbesondere zeigt unsere Methode auf der anspruchsvollen AudioSet 2M-Klassifikationsaufgabe eine erhebliche Verbesserung um 4,4 %, wenn das Modell von Grund auf trainiert wird, und um 3,2 %, wenn es mit Gewichten initialisiert wird, die aus einem ImageNet-1K-prätrainierten Modell stammen. Zudem präsentieren wir umfassende Ablationsstudien, um die Wirkung und Effektivität unseres Ansatzes zu untersuchen. Der Quellcode und die vortrainierten Gewichte sind unter https://github.com/ta012/DTFAT.git verfügbar.

DTF-AT: Decoupled Time-Frequency Audio Transformer für die Ereignisklassifikation

{Philip JB Jackson Muhammad Awais Armin Mustafa Sara Ahmed Tony Alex}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters

Command Palette

DTF-AT: Decoupled Time-Frequency Audio Transformer für die Ereignisklassifikation

{Philip JB Jackson Muhammad Awais Armin Mustafa Sara Ahmed Tony Alex}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters