2 个月前
SpEx+: 一种完整的时域说话人提取网络
Meng Ge; Chenglin Xu; Longbiao Wang; Eng Siong Chng; Jianwu Dang; Haizhou Li

摘要
说话人提取旨在从多说话人的环境中提取目标说话人的语音信号,给定目标说话人的参考语音。我们最近提出了一种时域解决方案,即SpEx,该方法避免了频域方法中的相位估计。然而,SpEx并不是完全的时域解决方案,因为它在进行说话人提取时采用时域语音编码,而参考的是频域说话人嵌入。此外,时域分析窗口的大小与频域输入窗口的大小也不同。这种不匹配对系统性能产生了不利影响。为了解决这一问题,我们提出了一种完整的时域说话人提取方案,称为SpEx+。具体而言,我们将两个相同的语音编码网络的权重绑定在一起,一个用于编码器-提取器-解码器管道,另一个作为说话人编码器的一部分。实验结果表明,在WSJ0-2mix-extr数据库的不同性别和相同性别条件下,SpEx+分别比最先进的SpEx基线提高了0.8 dB和2.1 dB的信噪比(SDR)。