8 个月前

音频和语音处理

多任务学习

Yan Ru Pei Ritik Shrivastava FNU Sidharth

摘要

我们介绍了一种名为aTENNuate的简单深度状态空间自动编码器，该编码器配置为以端到端的方式高效进行在线原始语音增强。网络的主要性能评估集中在原始语音去噪上，同时还在超分辨率和解量化等任务上进行了额外评估。我们在VoiceBank + DEMAND和Microsoft DNS1合成测试集上对aTENNuate进行了基准测试。结果表明，该网络在PESQ分数、参数数量、MACs（乘积累加运算）和延迟方面均优于以往的实时去噪模型。即使作为原始波形处理模型，aTENNate也能保持对干净信号的高度保真度，并且几乎不会产生可听的伪影。此外，当输入的噪声信号被压缩至4000Hz和4位时，该模型仍然表现出色，这表明其在低资源环境下的通用语音增强能力。您可以通过pip install attenuate来尝试使用该模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

音频和语音处理

多任务学习

Yan Ru Pei Ritik Shrivastava FNU Sidharth

摘要

我们介绍了一种名为aTENNuate的简单深度状态空间自动编码器，该编码器配置为以端到端的方式高效进行在线原始语音增强。网络的主要性能评估集中在原始语音去噪上，同时还在超分辨率和解量化等任务上进行了额外评估。我们在VoiceBank + DEMAND和Microsoft DNS1合成测试集上对aTENNuate进行了基准测试。结果表明，该网络在PESQ分数、参数数量、MACs（乘积累加运算）和延迟方面均优于以往的实时去噪模型。即使作为原始波形处理模型，aTENNate也能保持对干净信号的高度保真度，并且几乎不会产生可听的伪影。此外，当输入的噪声信号被压缩至4000Hz和4位时，该模型仍然表现出色，这表明其在低资源环境下的通用语音增强能力。您可以通过pip install attenuate来尝试使用该模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供