15 天前

多解码器DPRNN:高精度源数量估计与分离

Junzhe Zhu, Raymond Yeh, Mark Hasegawa-Johnson
多解码器DPRNN:高精度源数量估计与分离
摘要

我们提出了一种端到端可训练的单通道语音分离方法,适用于说话人数量未知的场景。该方法在MulCat语音分离主干网络的基础上,引入了额外的输出头:一个计数头(count-head),用于推断说话人数量;以及多个解码头(decoder-heads),用于重建原始语音信号。此外,我们还提出了一种新的评估指标,用于衡量在说话人数量可变情况下的语音分离性能。具体而言,我们解决了在真实标签中的说话人数量与模型预测数量不一致时,如何准确评估分离质量的问题。我们在WSJ0-mix数据集上进行了实验,处理的语音混合最多包含五位说话人。实验结果表明,我们的方法在说话人数量估计方面优于现有最先进方法,同时在重建语音信号的质量上也保持了较强的竞争力。