HyperAIHyperAI
vor 17 Tagen

Ein zweistufiger Ansatz für geräteunabhängige akustische Szenenklassifikation

Hu Hu, Chao-Han Huck Yang, Xianjun Xia, Xue Bai, Xin Tang, Yajian Wang, Shutong Niu, Li Chai, Juanjuan Li, Hongning Zhu, Feng Bao, Yuanjun Zhao, Sabato Marco Siniscalchi, Yannan Wang, Jun Du, Chin-Hui Lee
Ein zweistufiger Ansatz für geräteunabhängige akustische Szenenklassifikation
Abstract

Um die Robustheit von Geräten zu verbessern – einer äußerst wünschenswerten Schlüsselfunktion eines wettbewerbsfähigen datengetriebenen Systems zur akustischen Szenenklassifikation (Acoustic Scene Classification, ASC) – wird ein neuartiges zweistufiges System vorgestellt, das auf vollständig konvolutionellen neuronalen Netzen (Fully Convolutional Neural Networks, CNNs) basiert. Unser zweistufiges System nutzt eine ad-hoc-Score-Kombination zweier CNN-Klassifizierer: (i) der erste CNN klassifiziert akustische Eingaben in eine von drei breiten Klassen, und (ii) der zweite CNN klassifiziert dieselben Eingaben in eine von zehn feineren Klassen. Drei verschiedene CNN-Architekturen werden untersucht, um die zweistufigen Klassifizierer zu implementieren, und ein Frequenz-Unterabtastungsverfahren wird evaluiert. Zudem werden neuartige Daten-Augmentierungsschemata für ASC untersucht. Auf der Grundlage der DCASE 2020 Task 1a zeigt unsere Evaluierung, dass das vorgeschlagene ASC-System eine state-of-the-art-Genauigkeit auf dem Entwicklungssatz erreicht. Das beste System, eine zweistufige Fusion von CNN-Ensembles, erzielt dabei eine durchschnittliche Genauigkeit von 81,9 % bei mehrgeräte-Testdaten und zeigt eine signifikante Verbesserung bei bisher nicht gesehenen Geräten. Schließlich liefert die neuronale Saliency-Analyse mittels Class Activation Mapping (CAM) neue Erkenntnisse über die von unseren Modellen gelernten Muster.

Ein zweistufiger Ansatz für geräteunabhängige akustische Szenenklassifikation | Neueste Forschungsarbeiten | HyperAI