HyperAIHyperAI
vor 16 Tagen

HTS-AT: Ein hierarchischer Token-Semantischer Audio-Transformer für die Klassifikation und Detektion von Geräuschen

Ke Chen, Xingjian Du, Bilei Zhu, Zejun Ma, Taylor Berg-Kirkpatrick, Shlomo Dubnov
HTS-AT: Ein hierarchischer Token-Semantischer Audio-Transformer für die Klassifikation und Detektion von Geräuschen
Abstract

Die Audio-Klassifikation ist eine zentrale Aufgabe, bei der Audio-Samples ihren entsprechenden Labels zugeordnet werden. In jüngster Zeit wurden Transformer-Modelle mit Selbst-Attention-Mechanismen in diesem Bereich eingesetzt. Allerdings erfordern bestehende Audio-Transformer große GPU-Speicherkapazitäten und lange Trainingszeiten und stützen sich zudem auf vortrainierte Vision-Modelle, um hohe Leistung zu erzielen – was die Skalierbarkeit der Modelle in audio-basierten Aufgaben einschränkt. Um diese Probleme zu bewältigen, stellen wir HTS-AT vor: einen Audio-Transformer mit hierarchischer Struktur, der die Modellgröße und Trainingszeit reduziert. Zudem wird ein Token-Semantik-Modul integriert, um die endgültigen Ausgaben in Klassen-Feature-Maps zu transformieren, wodurch das Modell für die Audio-Event-Detektion (d. h. zeitliche Lokalisierung) geeignet wird. Wir evaluieren HTS-AT auf drei Datensätzen zur Audio-Klassifikation und erzielen dabei neue State-of-the-Art (SOTA)-Ergebnisse auf AudioSet und ESC-50 sowie eine gleichwertige Leistung auf Speech Command V2. Zudem erreicht HTS-AT eine bessere Performance bei der Ereignislokalisierung als frühere CNN-basierte Modelle. Darüber hinaus benötigt HTS-AT nur 35 % der Modellparameter und 15 % der Trainingszeit im Vergleich zum vorherigen Audio-Transformer. Diese Ergebnisse belegen die hohe Leistungsfähigkeit und Effizienz von HTS-AT.

HTS-AT: Ein hierarchischer Token-Semantischer Audio-Transformer für die Klassifikation und Detektion von Geräuschen | Neueste Forschungsarbeiten | HyperAI