
摘要
语音分离问题,也称为鸡尾酒会问题,指的是从多个语音信号的混合中分离出单一语音信号的任务。以往关于源分离的研究在人类语音领域为源分离任务设定了一个上限。这一上限是基于确定性模型推导出来的。然而,近年来生成模型的发展对这一上限提出了挑战。本文展示了如何将该上限推广到随机生成模型的情况。通过将预训练的扩散模型声码器应用于确定性分离模型的输出,可以实现当前最先进的分离效果。研究表明,这需要将分离模型的输出与扩散模型的输出结合起来。在我们的方法中,这种结合是在频域中通过一个学习模型推断出的权重进行线性组合来完成的。我们在多个基准测试中展示了针对2、3、5、10和20个说话人的最先进结果。特别是对于两个说话人的情况,我们的方法能够超越之前认为的性能上限。