17 天前
通过高阶隐空间中的细粒度编码实现分步精炼的语音分离网络
Zengwei Yao, Wenjie Pei, Fanglin Chen, Guangming Lu, David Zhang

摘要
单通道语音分离的核心问题在于如何将混合信号编码至一个潜在嵌入空间,使得不同说话人的语音能够被精确分离。现有的语音分离方法通常将语音信号转换至频域进行分离,或通过基于卷积滤波器构建潜在域来学习可分离的嵌入空间。尽管后一类方法在学习嵌入空间方面显著提升了语音分离性能,但我们认为,仅依赖单一潜在域所定义的嵌入空间,尚不足以提供充分可分离的编码表示。为此,本文提出一种逐步优化的语音分离网络(Stepwise-Refining Speech Separation Network, SRSSN),该网络采用粗粒度到细粒度的分离框架。在初始阶段,SRSSN首先学习一个一阶潜在域,以构建编码空间,并在此基础上实现初步的粗粒度分离;随后,在精炼阶段,模型沿着现有潜在域的各个基函数方向学习新的潜在域,从而构建高阶潜在域,使模型能够执行精细化分离,实现更精确的语音分离。通过大量实验验证了SRSSN的有效性,实验涵盖在WSJ0-2/3mix数据集上的干净(无噪声)环境下的语音分离任务,以及在WHAM!和WHAMR!数据集上的噪声与混响环境下的语音分离任务。此外,我们还对模型分离出的语音信号进行了语音识别实验,以间接评估语音分离的性能。