HyperAIHyperAI

Command Palette

Search for a command to run...

HTS-AT: Ein hierarchischer Token-Semantischer Audio-Transformer für die Klassifikation und Detektion von Geräuschen

Ke Chen Xingjian Du Bilei Zhu Zejun Ma Taylor Berg-Kirkpatrick Shlomo Dubnov

Zusammenfassung

Die Audio-Klassifikation ist eine zentrale Aufgabe, bei der Audio-Samples ihren entsprechenden Labels zugeordnet werden. In jüngster Zeit wurden Transformer-Modelle mit Selbst-Attention-Mechanismen in diesem Bereich eingesetzt. Allerdings erfordern bestehende Audio-Transformer große GPU-Speicherkapazitäten und lange Trainingszeiten und stützen sich zudem auf vortrainierte Vision-Modelle, um hohe Leistung zu erzielen – was die Skalierbarkeit der Modelle in audio-basierten Aufgaben einschränkt. Um diese Probleme zu bewältigen, stellen wir HTS-AT vor: einen Audio-Transformer mit hierarchischer Struktur, der die Modellgröße und Trainingszeit reduziert. Zudem wird ein Token-Semantik-Modul integriert, um die endgültigen Ausgaben in Klassen-Feature-Maps zu transformieren, wodurch das Modell für die Audio-Event-Detektion (d. h. zeitliche Lokalisierung) geeignet wird. Wir evaluieren HTS-AT auf drei Datensätzen zur Audio-Klassifikation und erzielen dabei neue State-of-the-Art (SOTA)-Ergebnisse auf AudioSet und ESC-50 sowie eine gleichwertige Leistung auf Speech Command V2. Zudem erreicht HTS-AT eine bessere Performance bei der Ereignislokalisierung als frühere CNN-basierte Modelle. Darüber hinaus benötigt HTS-AT nur 35 % der Modellparameter und 15 % der Trainingszeit im Vergleich zum vorherigen Audio-Transformer. Diese Ergebnisse belegen die hohe Leistungsfähigkeit und Effizienz von HTS-AT.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp