6 个月前

音频和语音处理

多任务学习

卷积神经网络

Junzhe Zhu Raymond Yeh Mark Hasegawa-Johnson

摘要

我们提出了一种端到端可训练的单通道语音分离方法，适用于说话人数量未知的场景。该方法在MulCat语音分离主干网络的基础上，引入了额外的输出头：一个计数头（count-head），用于推断说话人数量；以及多个解码头（decoder-heads），用于重建原始语音信号。此外，我们还提出了一种新的评估指标，用于衡量在说话人数量可变情况下的语音分离性能。具体而言，我们解决了在真实标签中的说话人数量与模型预测数量不一致时，如何准确评估分离质量的问题。我们在WSJ0-mix数据集上进行了实验，处理的语音混合最多包含五位说话人。实验结果表明，我们的方法在说话人数量估计方面优于现有最先进方法，同时在重建语音信号的质量上也保持了较强的竞争力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

多任务学习

卷积神经网络

Junzhe Zhu Raymond Yeh Mark Hasegawa-Johnson

摘要

我们提出了一种端到端可训练的单通道语音分离方法，适用于说话人数量未知的场景。该方法在MulCat语音分离主干网络的基础上，引入了额外的输出头：一个计数头（count-head），用于推断说话人数量；以及多个解码头（decoder-heads），用于重建原始语音信号。此外，我们还提出了一种新的评估指标，用于衡量在说话人数量可变情况下的语音分离性能。具体而言，我们解决了在真实标签中的说话人数量与模型预测数量不一致时，如何准确评估分离质量的问题。我们在WSJ0-mix数据集上进行了实验，处理的语音混合最多包含五位说话人。实验结果表明，我们的方法在说话人数量估计方面优于现有最先进方法，同时在重建语音信号的质量上也保持了较强的竞争力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供