11 天前

SALSA:用于多音事件定位与检测的空间线索增强对数谱图特征

Thi Ngoc Tho Nguyen, Karn N. Watcharasupat, Ngoc Khanh Nguyen, Douglas L. Jones, Woon-Seng Gan
SALSA:用于多音事件定位与检测的空间线索增强对数谱图特征
摘要

声事件定位与检测(Sound Event Localization and Detection, SELD)包含两个子任务:声事件检测与到达方向估计(Direction-of-Arrival Estimation)。其中,声事件检测主要依赖时频域模式来区分不同声类,而到达方向估计则利用麦克风之间的幅值和/或相位差异来推断声源方向。由于这两个子任务的特征提取机制差异较大,联合优化往往面临挑战。为此,本文提出一种新型特征——空间线索增强对数谱图(Spatial cue-Augmented Log-Spectrogram, SALSA),其在信号功率与声源方向线索之间建立了精确的时频对应关系,这对于解决重叠声源问题尤为关键。SALSA特征由多通道对数谱图与对应时频单元中空间协方差矩阵的归一化主特征向量(principal eigenvector)沿通道维度堆叠而成。根据麦克风阵列的结构形式,主特征向量可采用不同的归一化方式,从而有效提取麦克风间的幅值和/或相位差异信息。因此,SALSA特征适用于多种麦克风阵列配置,包括一阶全向声学(First-Order Ambisonics, FOA)和多通道麦克风阵列(Multichannel Microphone Array, MIC)。在包含方向干扰的TAU-NIGENS Spatial Sound Events 2021数据集上的实验结果表明,SALSA特征显著优于现有先进特征。具体而言,在FOA格式下,采用SALSA特征相较于使用强度矢量的多通道对数梅尔谱图,F1分数和定位召回率分别提升了6%;在MIC格式下,相较于使用广义互相关谱的多通道对数梅尔谱图,F1分数和定位召回率分别提升了16%和7%。实验结果验证了SALSA特征在提升声事件定位与检测性能方面的有效性与普适性。

SALSA:用于多音事件定位与检测的空间线索增强对数谱图特征 | 最新论文 | HyperAI超神经