HyperAIHyperAI
vor 11 Tagen

SALSA: Spatial Cue-augmentierte Log-Spektrogramm-Features für die Polyphonen Sound-Event-Lokalisierung und -Detektion

Thi Ngoc Tho Nguyen, Karn N. Watcharasupat, Ngoc Khanh Nguyen, Douglas L. Jones, Woon-Seng Gan
SALSA: Spatial Cue-augmentierte Log-Spektrogramm-Features für die Polyphonen Sound-Event-Lokalisierung und -Detektion
Abstract

Die Lokalisierung und Erkennung akustischer Ereignisse (Sound Event Localization and Detection, SELD) umfasst zwei Teilaufgaben: die Erkennung akustischer Ereignisse und die Schätzung der Ankunftsrichtung (Direction-of-Arrival, DoA). Während die Erkennung akustischer Ereignisse hauptsächlich auf zeit-frequenzbasierten Mustern beruht, um verschiedene Klassen von Geräuschen zu unterscheiden, nutzt die Schätzung der Ankunftsrichtung Amplituden- und/oder Phasendifferenzen zwischen Mikrofonen, um die Quellenrichtungen abzuschätzen. Aufgrund dieser unterschiedlichen Informationsquellen ist die gemeinsame Optimierung beider Aufgaben häufig schwierig. Wir stellen ein neuartiges Merkmal vor, genannt Spatial cue-Augmented Log-SpectrogrAm (SALSA), mit einer exakten zeit-frequenzbezogenen Zuordnung zwischen der Signalenergie und den räumlichen Richtungscues, was entscheidend für die Auflösung überlagerter Schallquellen ist. Das SALSA-Merkmal besteht aus mehrkanaligen Log-Spektrogrammen, die entlang des normierten Haupt-Eigenvektors der räumlichen Kovarianzmatrix an jedem entsprechenden Zeit-Frequenz-Bin gestapelt sind. Je nach Mikrofonarray-Geometrie kann der Haupt-Eigenvektor unterschiedlich normiert werden, um Amplituden- und/oder Phasendifferenzen zwischen den Mikrofonen zu extrahieren. Dadurch sind SALSA-Merkmale für verschiedene Mikrofonarray-Formate wie First-Order Ambisonics (FOA) und Mehrkanal-Mikrofon-Arrays (MIC) geeignet. Experimentelle Ergebnisse auf dem TAU-NIGENS Spatial Sound Events 2021-Datensatz unter Berücksichtigung räumlicher Störungen zeigen, dass SALSA-Merkmale andere aktuelle State-of-the-Art-Merkmale übertrifft. Insbesondere führt die Verwendung von SALSA-Merkmale im FOA-Format zu einer Steigerung des F1-Scores und der Lokalisierungserinnerung um jeweils 6 % im Vergleich zu mehrkanaligen Log-Mel-Spektrogrammen mit Intensitätsvektoren. Für das MIC-Format erhöht die Anwendung von SALSA-Merkmale den F1-Score um 16 % und die Lokalisierungserinnerung um 7 % gegenüber der Verwendung von mehrkanaligen Log-Mel-Spektrogrammen mit generalisierten Kreuzkorrelations-Spektren.

SALSA: Spatial Cue-augmentierte Log-Spektrogramm-Features für die Polyphonen Sound-Event-Lokalisierung und -Detektion | Neueste Forschungsarbeiten | HyperAI