vor 2 Monaten

Duales Wissensdestillieren für effiziente Sound-Event-Erkennung

Xiao, Yang ; Das, Rohan Kumar

Abstract

Die Erkennung von Schallereignissen (SED) ist entscheidend für die Identifizierung spezifischer Schallereignisse und deren zeitlicher Positionen innerhalb akustischer Signale. Dies stellt insbesondere für Anwendungen auf Geräten eine Herausforderung dar, wo rechnerische Ressourcen begrenzt sind. Um dieses Problem zu lösen, stellen wir in dieser Arbeit einen neuen Ansatz vor, der als duales Wissensverdistillierungsframework bezeichnet wird. Unser vorgeschlagenes duales Wissensverdistillierungsverfahren beginnt mit der zeitlichen Durchschnittsverdistillierung (TAKD), bei der ein durchschnittliches Schülermodell aus den zeitlichen Mittelwerten der Parameter des Schülermodells abgeleitet wird. Dies ermöglicht es dem Schülermodell, indirekt von einem vorab trainierten Lehrermodell zu lernen und gewährleistet eine stabile Wissensverdistillierung. Anschließend führen wir die embeddings-verstärkte Merkmalsverdistillierung (EEFD) ein, die das Einbetten einer Verdistillierungsschicht in das Schülermodell umfasst, um das kontextuelle Lernen zu stärken. Auf dem öffentlichen Evaluationsdatensatz DCASE 2023 Task 4A zeigt unser vorgeschlagenes SED-System mit nur einem Drittel der Parameter des Basismodells eine überlegene Leistung hinsichtlich PSDS1 und PSDS2. Dies unterstreicht die Bedeutung des vorgeschlagenen dualen Wissensverdistillierungsansatzes für kompakte SED-Systeme, die ideal für Edge-Geräte geeignet sind.