HyperAIHyperAI

Command Palette

Search for a command to run...

SALSA: Spatial Cue-augmentierte Log-Spektrogramm-Features für die Polyphonen Sound-Event-Lokalisierung und -Detektion

Thi Ngoc Tho Nguyen Karn N. Watcharasupat Ngoc Khanh Nguyen Douglas L. Jones Woon-Seng Gan

Zusammenfassung

Die Lokalisierung und Erkennung akustischer Ereignisse (Sound Event Localization and Detection, SELD) umfasst zwei Teilaufgaben: die Erkennung akustischer Ereignisse und die Schätzung der Ankunftsrichtung (Direction-of-Arrival, DoA). Während die Erkennung akustischer Ereignisse hauptsächlich auf zeit-frequenzbasierten Mustern beruht, um verschiedene Klassen von Geräuschen zu unterscheiden, nutzt die Schätzung der Ankunftsrichtung Amplituden- und/oder Phasendifferenzen zwischen Mikrofonen, um die Quellenrichtungen abzuschätzen. Aufgrund dieser unterschiedlichen Informationsquellen ist die gemeinsame Optimierung beider Aufgaben häufig schwierig. Wir stellen ein neuartiges Merkmal vor, genannt Spatial cue-Augmented Log-SpectrogrAm (SALSA), mit einer exakten zeit-frequenzbezogenen Zuordnung zwischen der Signalenergie und den räumlichen Richtungscues, was entscheidend für die Auflösung überlagerter Schallquellen ist. Das SALSA-Merkmal besteht aus mehrkanaligen Log-Spektrogrammen, die entlang des normierten Haupt-Eigenvektors der räumlichen Kovarianzmatrix an jedem entsprechenden Zeit-Frequenz-Bin gestapelt sind. Je nach Mikrofonarray-Geometrie kann der Haupt-Eigenvektor unterschiedlich normiert werden, um Amplituden- und/oder Phasendifferenzen zwischen den Mikrofonen zu extrahieren. Dadurch sind SALSA-Merkmale für verschiedene Mikrofonarray-Formate wie First-Order Ambisonics (FOA) und Mehrkanal-Mikrofon-Arrays (MIC) geeignet. Experimentelle Ergebnisse auf dem TAU-NIGENS Spatial Sound Events 2021-Datensatz unter Berücksichtigung räumlicher Störungen zeigen, dass SALSA-Merkmale andere aktuelle State-of-the-Art-Merkmale übertrifft. Insbesondere führt die Verwendung von SALSA-Merkmale im FOA-Format zu einer Steigerung des F1-Scores und der Lokalisierungserinnerung um jeweils 6 % im Vergleich zu mehrkanaligen Log-Mel-Spektrogrammen mit Intensitätsvektoren. Für das MIC-Format erhöht die Anwendung von SALSA-Merkmale den F1-Score um 16 % und die Lokalisierungserinnerung um 7 % gegenüber der Verwendung von mehrkanaligen Log-Mel-Spektrogrammen mit generalisierten Kreuzkorrelations-Spektren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SALSA: Spatial Cue-augmentierte Log-Spektrogramm-Features für die Polyphonen Sound-Event-Lokalisierung und -Detektion | Paper | HyperAI