8 个月前

音频和语音处理

Shahar Lutati; Eliya Nachmani; Lior Wolf

摘要

语音分离问题，也称为鸡尾酒会问题，指的是从多个语音信号的混合中分离出单一语音信号的任务。以往关于源分离的研究在人类语音领域为源分离任务设定了一个上限。这一上限是基于确定性模型推导出来的。然而，近年来生成模型的发展对这一上限提出了挑战。本文展示了如何将该上限推广到随机生成模型的情况。通过将预训练的扩散模型声码器应用于确定性分离模型的输出，可以实现当前最先进的分离效果。研究表明，这需要将分离模型的输出与扩散模型的输出结合起来。在我们的方法中，这种结合是在频域中通过一个学习模型推断出的权重进行线性组合来完成的。我们在多个基准测试中展示了针对2、3、5、10和20个说话人的最先进结果。特别是对于两个说话人的情况，我们的方法能够超越之前认为的性能上限。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

音频和语音处理

Shahar Lutati; Eliya Nachmani; Lior Wolf

摘要

语音分离问题，也称为鸡尾酒会问题，指的是从多个语音信号的混合中分离出单一语音信号的任务。以往关于源分离的研究在人类语音领域为源分离任务设定了一个上限。这一上限是基于确定性模型推导出来的。然而，近年来生成模型的发展对这一上限提出了挑战。本文展示了如何将该上限推广到随机生成模型的情况。通过将预训练的扩散模型声码器应用于确定性分离模型的输出，可以实现当前最先进的分离效果。研究表明，这需要将分离模型的输出与扩散模型的输出结合起来。在我们的方法中，这种结合是在频域中通过一个学习模型推断出的权重进行线性组合来完成的。我们在多个基准测试中展示了针对2、3、5、10和20个说话人的最先进结果。特别是对于两个说话人的情况，我们的方法能够超越之前认为的性能上限。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供