8 个月前

音频和语音处理

卷积神经网络

多任务学习

Meng Ge; Chenglin Xu; Longbiao Wang; Eng Siong Chng; Jianwu Dang; Haizhou Li

摘要

说话人提取旨在从多说话人的环境中提取目标说话人的语音信号，给定目标说话人的参考语音。我们最近提出了一种时域解决方案，即SpEx，该方法避免了频域方法中的相位估计。然而，SpEx并不是完全的时域解决方案，因为它在进行说话人提取时采用时域语音编码，而参考的是频域说话人嵌入。此外，时域分析窗口的大小与频域输入窗口的大小也不同。这种不匹配对系统性能产生了不利影响。为了解决这一问题，我们提出了一种完整的时域说话人提取方案，称为SpEx+。具体而言，我们将两个相同的语音编码网络的权重绑定在一起，一个用于编码器-提取器-解码器管道，另一个作为说话人编码器的一部分。实验结果表明，在WSJ0-2mix-extr数据库的不同性别和相同性别条件下，SpEx+分别比最先进的SpEx基线提高了0.8 dB和2.1 dB的信噪比（SDR）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

音频和语音处理

卷积神经网络

多任务学习

Meng Ge; Chenglin Xu; Longbiao Wang; Eng Siong Chng; Jianwu Dang; Haizhou Li

摘要

说话人提取旨在从多说话人的环境中提取目标说话人的语音信号，给定目标说话人的参考语音。我们最近提出了一种时域解决方案，即SpEx，该方法避免了频域方法中的相位估计。然而，SpEx并不是完全的时域解决方案，因为它在进行说话人提取时采用时域语音编码，而参考的是频域说话人嵌入。此外，时域分析窗口的大小与频域输入窗口的大小也不同。这种不匹配对系统性能产生了不利影响。为了解决这一问题，我们提出了一种完整的时域说话人提取方案，称为SpEx+。具体而言，我们将两个相同的语音编码网络的权重绑定在一起，一个用于编码器-提取器-解码器管道，另一个作为说话人编码器的一部分。实验结果表明，在WSJ0-2mix-extr数据库的不同性别和相同性别条件下，SpEx+分别比最先进的SpEx基线提高了0.8 dB和2.1 dB的信噪比（SDR）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供