HyperAIHyperAI
il y a 15 jours

SALSA : Fonctionnalités de spectrogramme logarithmique augmentées par des indices spatiaux pour la localisation et la détection d’événements sonores polyphoniques

Thi Ngoc Tho Nguyen, Karn N. Watcharasupat, Ngoc Khanh Nguyen, Douglas L. Jones, Woon-Seng Gan
SALSA : Fonctionnalités de spectrogramme logarithmique augmentées par des indices spatiaux pour la localisation et la détection d’événements sonores polyphoniques
Résumé

La localisation et la détection d’événements sonores (SELD) se compose de deux tâches sous-jacentes : la détection d’événements sonores et l’estimation de la direction d’arrivée (DOA). Alors que la détection d’événements sonores repose principalement sur les motifs temporels et fréquentiels pour distinguer différentes classes sonores, l’estimation de la direction d’arrivée s’appuie sur les différences d’amplitude et/ou de phase entre les microphones afin d’estimer les directions des sources. En conséquence, il est souvent difficile d’optimiser conjointement ces deux tâches. Nous proposons une nouvelle caractéristique, nommée Spatial cue-Augmented Log-Spectrogram (SALSA), qui établit une correspondance précise entre la puissance du signal et les indices directionnels des sources au niveau des bins temporels et fréquentiels, ce qui est crucial pour résoudre le problème des sources sonores superposées. La caractéristique SALSA est constituée de log-spectrogrammes multicanal empilés avec le vecteur propre principal normalisé de la matrice de covariance spatiale, à chaque bin temporel et fréquentiel correspondant. En fonction de la configuration de l’array de microphones, ce vecteur propre principal peut être normalisé de manière adaptée afin d’extraire les différences d’amplitude et/ou de phase entre les microphones. En résulte que les caractéristiques SALSA sont applicables à diverses configurations d’array, telles que les ambisoniques d’ordre un (FOA) et les arrays multicanal de microphones (MIC). Les résultats expérimentaux sur le jeu de données TAU-NIGENS Spatial Sound Events 2021, soumis à des interférences directionnelles, montrent que les caractéristiques SALSA surpassent les autres caractéristiques de pointe. Plus précisément, l’utilisation de SALSA dans le format FOA a permis d’augmenter de 6 % chacun le score F1 et le rappel de localisation par rapport aux log-spectrogrammes mel multicanal associés à des vecteurs d’intensité. Pour le format MIC, l’adoption de SALSA a conduit à une augmentation de 16 % du score F1 et de 7 % du rappel de localisation, comparativement aux log-spectrogrammes mel multicanal combinés à des spectres de corrélation croisée généralisée.

SALSA : Fonctionnalités de spectrogramme logarithmique augmentées par des indices spatiaux pour la localisation et la détection d’événements sonores polyphoniques | Articles de recherche récents | HyperAI