Ein zweistufiger Ansatz für geräteunabhängige akustische Szenenklassifikation

Um die Robustheit von Geräten zu verbessern – einer äußerst wünschenswerten Schlüsselfunktion eines wettbewerbsfähigen datengetriebenen Systems zur akustischen Szenenklassifikation (Acoustic Scene Classification, ASC) – wird ein neuartiges zweistufiges System vorgestellt, das auf vollständig konvolutionellen neuronalen Netzen (Fully Convolutional Neural Networks, CNNs) basiert. Unser zweistufiges System nutzt eine ad-hoc-Score-Kombination zweier CNN-Klassifizierer: (i) der erste CNN klassifiziert akustische Eingaben in eine von drei breiten Klassen, und (ii) der zweite CNN klassifiziert dieselben Eingaben in eine von zehn feineren Klassen. Drei verschiedene CNN-Architekturen werden untersucht, um die zweistufigen Klassifizierer zu implementieren, und ein Frequenz-Unterabtastungsverfahren wird evaluiert. Zudem werden neuartige Daten-Augmentierungsschemata für ASC untersucht. Auf der Grundlage der DCASE 2020 Task 1a zeigt unsere Evaluierung, dass das vorgeschlagene ASC-System eine state-of-the-art-Genauigkeit auf dem Entwicklungssatz erreicht. Das beste System, eine zweistufige Fusion von CNN-Ensembles, erzielt dabei eine durchschnittliche Genauigkeit von 81,9 % bei mehrgeräte-Testdaten und zeigt eine signifikante Verbesserung bei bisher nicht gesehenen Geräten. Schließlich liefert die neuronale Saliency-Analyse mittels Class Activation Mapping (CAM) neue Erkenntnisse über die von unseren Modellen gelernten Muster.