Die Grenzen der Schallereigniserkennung mit multi-dilatierter Frequenzdynamik-Faltung erweitern

Die Frequenzdynamische Faltung (FDY-Faltung) hat einen Meilenstein im Bereich der Schallereignisdetektion (SED) dargestellt, führt aber aufgrund mehrerer Basiskerne zu einer erheblichen Vergrößerung des Modellvolumens. In dieser Arbeit schlagen wir die partielle Frequenzdynamische Faltung (PFD-Faltung) vor, die die Ausgaben der konventionellen 2D-Faltung und der FDY-Faltung als statische und dynamische Zweige jeweils verkettet. Der PFD-CRNN mit einem Achtel Anteil der Ausgabe des dynamischen Zweigs reduziert die Anzahl der Parameter des FDY-CRNN um 51,9 %, während er die Leistung beibehält. Darüber hinaus schlagen wir die multidilatierte Frequenzdynamische Faltung (MDFD-Faltung) vor, die innerhalb einer einzelnen Faltungsschicht mehrere multidilatierte Frequenzdynamische Faltungs- (DFD-Faltung) Zweige mit unterschiedlichen Dilatationsgrößen und einen statischen Zweig integriert. Der beste resultierende MDFD-CRNN mit fünf nicht-dilatierten FDY-Faltungs- und drei unterschiedlich dilatierten DFD-Faltungs-Zweigen sowie einem statischen Zweig erreichte eine Verbesserung des Polyphonie-Schallereignis-Detektions-Scores (PSDS) von 3,17 % gegenüber der FDY-Faltung ohne klassenweise Medianfilter. Die Anwendung von Schallereignis-Bounding-Boxen als Postverarbeitung auf den besten MDFD-CRNN führte zu einem wahren PSDS1 von 0,485, was den aktuellen Stand der Technik im DESED-Datensatz ohne externe Datensätze oder vortrainierte Modelle darstellt. Auf Grundlage umfangreicher Abstraktionsstudien entdeckten wir, dass nicht nur mehrere dynamische Zweige, sondern auch ein spezifischer Anteil des statischen Zweigs zur Verbesserung der SED beiträgt. Zudem sind neben dilatierten dynamischen Zweigen auch nicht-dilatierte dynamische Zweige erforderlich, um optimale SED-Leistungen zu erzielen. Die Ergebnisse und Diskussionen der Abstraktionsstudien verbessern das Verständnis und die Nutzbarkeit von Varianten der FDY-Faltung weiter.请注意,这里的“PSDS”和“DESED”等专有名词保持了英文原样,因为它们在德语科技文献中通常也会这样使用。同时,“Abstraktionsstudien”在这里被用来翻译“ablation studies”,尽管这个词在德语中并不常见,但为了保持专业性和准确性,我们选择保留其含义并在此处使用。如果需要进一步解释或有其他偏好,请告知。