Frequency Dynamic Convolution: frequenzadaptive Mustererkennung für die Erkennung von Schallereignissen

Die 2D-Faltung wird weit verbreitet in der Erkennung akustischer Ereignisse (Sound Event Detection, SED) eingesetzt, um zweidimensionale zeitfrequenzbasierte Muster akustischer Ereignisse zu erkennen. Allerdings erzwingt die 2D-Faltung eine translationsäquivalente Invarianz sowohl entlang der Zeit- als auch der Frequenzachse, wobei die Frequenzachse jedoch nicht translationsinvariant ist. Um die physikalische Konsistenz der 2D-Faltung bei SED zu verbessern, schlagen wir die frequenzdynamische Faltung vor, die Kerne verwendet, die sich an die Frequenzkomponenten der Eingabe anpassen. Die frequenzdynamische Faltung erreicht auf dem Validierungsdatensatz DESED eine Verbesserung von 6,3 % gegenüber der Baseline hinsichtlich des polyphonen Sound-Erkennungsscores (Polyphonic Sound Detection Score, PSDS). Zudem übertrifft sie signifikant andere bestehende, inhaltsadaptive Methoden in der SED. Darüber hinaus zeigen Vergleiche der klassenweise F1-Scores zwischen der Baseline und der frequenzdynamischen Faltung, dass die frequenzdynamische Faltung insbesondere bei der Erkennung nicht-stationärer akustischer Ereignisse mit komplexen zeitfrequenzbasierten Mustern überlegen ist. Diese Ergebnisse bestätigen, dass die frequenzdynamische Faltung besonders gut geeignet ist, frequenzabhängige Muster zu erkennen.