DTF-AT: Decoupled Time-Frequency Audio Transformer für die Ereignisklassifikation
Kürzlich haben sich Convolutional Neural Networks (CNNs) und auf Transformers basierende Netzwerke aufgrund ihrer breiten Anwendung im Bereich der Computer Vision erheblicher Aufmerksamkeit für verschiedene Aufgaben der Audio-Klassifikation und -Tagging erfreut. Trotz der Unterschiede in der Informationsverteilung zwischen Audio-Spektrogrammen und natürlichen Bildern wurde bisher nur begrenzt nach effektiven Methoden zur Informationsgewinnung aus Spektrogrammen mittels domain-spezifischer Schichten geforscht, die speziell für den Audio-Bereich optimiert sind. In diesem Artikel nutzen wir die Stärken des Multi-Axis Vision Transformers (MaxViT), um DTF-AT (Decoupled Time-Frequency Audio Transformer) zu entwickeln, welches die Interaktionen über Zeit-, Frequenz-, räumliche und Kanaldimensionen hinweg ermöglicht. Die vorgeschlagene DTF-AT-Architektur wird anhand verschiedener Audio- und Sprachklassifikationsaufgaben gründlich evaluiert und etabliert dabei konsistent neue Benchmarks für die derzeit beste (SOTA) Leistung. Insbesondere zeigt unsere Methode auf der anspruchsvollen AudioSet 2M-Klassifikationsaufgabe eine erhebliche Verbesserung um 4,4 %, wenn das Modell von Grund auf trainiert wird, und um 3,2 %, wenn es mit Gewichten initialisiert wird, die aus einem ImageNet-1K-prätrainierten Modell stammen. Zudem präsentieren wir umfassende Ablationsstudien, um die Wirkung und Effektivität unseres Ansatzes zu untersuchen. Der Quellcode und die vortrainierten Gewichte sind unter https://github.com/ta012/DTFAT.git verfügbar.