HyperAIHyperAI

Command Palette

Search for a command to run...

Frequency Dynamic Convolution: frequenzadaptive Mustererkennung für die Erkennung von Schallereignissen

Hyeonuk Nam Seong-Hu Kim Byeong-Yun Ko Yong-Hwa Park

Zusammenfassung

Die 2D-Faltung wird weit verbreitet in der Erkennung akustischer Ereignisse (Sound Event Detection, SED) eingesetzt, um zweidimensionale zeitfrequenzbasierte Muster akustischer Ereignisse zu erkennen. Allerdings erzwingt die 2D-Faltung eine translationsäquivalente Invarianz sowohl entlang der Zeit- als auch der Frequenzachse, wobei die Frequenzachse jedoch nicht translationsinvariant ist. Um die physikalische Konsistenz der 2D-Faltung bei SED zu verbessern, schlagen wir die frequenzdynamische Faltung vor, die Kerne verwendet, die sich an die Frequenzkomponenten der Eingabe anpassen. Die frequenzdynamische Faltung erreicht auf dem Validierungsdatensatz DESED eine Verbesserung von 6,3 % gegenüber der Baseline hinsichtlich des polyphonen Sound-Erkennungsscores (Polyphonic Sound Detection Score, PSDS). Zudem übertrifft sie signifikant andere bestehende, inhaltsadaptive Methoden in der SED. Darüber hinaus zeigen Vergleiche der klassenweise F1-Scores zwischen der Baseline und der frequenzdynamischen Faltung, dass die frequenzdynamische Faltung insbesondere bei der Erkennung nicht-stationärer akustischer Ereignisse mit komplexen zeitfrequenzbasierten Mustern überlegen ist. Diese Ergebnisse bestätigen, dass die frequenzdynamische Faltung besonders gut geeignet ist, frequenzabhängige Muster zu erkennen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp