vor 11 Tagen

Spektrumkorrektur: Akustische Szenenklassifikation mit nicht übereinstimmenden Aufnahmegeräten

Michał Kośmider

Abstract

Maschinelles Lernen kann bei der Verarbeitung von Audioaufnahmen, die auf einer begrenzten Anzahl von Geräten aufgenommen wurden, schlecht generalisieren, wenn diese auf Geräten mit unterschiedlichen Frequenzantworten aufgenommen werden. In dieser Arbeit wird eine relativ einfache Methode vorgestellt, um dieses Problem anzugehen. Zwei Varianten des Ansatzes werden präsentiert: Die erste erfordert ausgerichtete Beispiele aus mehreren Geräten, während die zweite Variante diesen Anspruch abschwächt. Die Methode ist sowohl für zeit- als auch für frequenzdomänenbasierte Darstellungen von Audiodaten geeignet. Zudem wird die Beziehung zur Standardisierung und zur Cepstralen Mittelwertsubtraktion analysiert. Der vorgeschlagene Ansatz erweist sich bereits bei sehr wenigen Trainingsbeispielen als wirksam. Die Methode wurde im Rahmen der Detection and Classification of Acoustic Scenes and Events (DCASE) 2019 Challenge entwickelt und erreichte bei der Szenario mit nicht übereinstimmenden Aufnahmegeräten eine Genauigkeit von 75 %, was den ersten Platz einbrachte. Der Quellcode für die Experimente ist online verfügbar.