6 个月前

卷积神经网络

音频和语音处理

William Ravenscroft Stefan Goetze Thomas Hain

摘要

语音分离仍是多说话人技术研究中的重要课题。卷积增强型变换器（Conformers）在众多语音处理任务中表现优异，但在语音分离领域的研究仍相对不足。目前多数最先进的分离模型（SOTA）均为时域音频分离网络（TasNet）。一些成功的模型采用了双路径（Dual-Path, DP）网络结构，通过顺序处理局部与全局信息来提升性能。时域Conformer（TD-Conformer）在原理上与DP方法类似，同样采用顺序处理局部与全局上下文信息的方式，但其时间复杂度函数有所不同。研究表明，在实际应用中信号长度较短的情况下，若控制特征维度一致，Conformer模型在计算效率上更具优势。为进一步提升计算效率，本文提出引入下采样层。所提出的最优TD-Conformer模型在WHAMR和WSJ0-2Mix基准测试中，分别实现了14.6 dB和21.2 dB的SISDR（信噪比改善指标）提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

音频和语音处理

William Ravenscroft Stefan Goetze Thomas Hain

摘要

语音分离仍是多说话人技术研究中的重要课题。卷积增强型变换器（Conformers）在众多语音处理任务中表现优异，但在语音分离领域的研究仍相对不足。目前多数最先进的分离模型（SOTA）均为时域音频分离网络（TasNet）。一些成功的模型采用了双路径（Dual-Path, DP）网络结构，通过顺序处理局部与全局信息来提升性能。时域Conformer（TD-Conformer）在原理上与DP方法类似，同样采用顺序处理局部与全局上下文信息的方式，但其时间复杂度函数有所不同。研究表明，在实际应用中信号长度较短的情况下，若控制特征维度一致，Conformer模型在计算效率上更具优势。为进一步提升计算效率，本文提出引入下采样层。所提出的最优TD-Conformer模型在WHAMR和WSJ0-2Mix基准测试中，分别实现了14.6 dB和21.2 dB的SISDR（信噪比改善指标）提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

时域Conformer模型在噪声混响声学环境下的单声道语音分离研究 | 论文 | HyperAI超神经