6 个月前

音频和语音处理

卷积神经网络

Bahareh Tolooshams Ritwik Giri Andrew H. Song Umut Isik Arvindh Krishnaswamy

摘要

近年来，监督式深度学习在语音增强领域受到广泛关注。当前最先进的深度学习方法通过学习一个比率掩码或二值掩码，在时频域对混合信号进行处理，从而还原出干净语音。尽管在单通道场景下表现优异，这些方法在多通道场景下的性能仍显不足，主要原因在于：a）未能充分挖掘可用的空间信息；b）仍将深度网络架构视为“黑箱”，这可能并不适用于多通道音频处理任务。本文针对上述问题，提出两项改进：a）采用复数比率掩码（complex ratio masking）而非仅对谱图幅度进行掩码，以更完整地保留相位信息；b）更重要的是，在深度网络架构中引入通道注意力机制（channel-attention mechanism），以模拟波束成形（beamforming）的效果。为此，我们提出了一种名为通道注意力密集U-Net（Channel-Attention Dense U-Net）的新型网络结构，该结构在每一层的特征图上递归地应用通道注意力单元，使网络能够实现非线性的波束成形。实验结果表明，该方法在CHiME-3数据集上的性能显著优于现有最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

卷积神经网络

Bahareh Tolooshams Ritwik Giri Andrew H. Song Umut Isik Arvindh Krishnaswamy

摘要

近年来，监督式深度学习在语音增强领域受到广泛关注。当前最先进的深度学习方法通过学习一个比率掩码或二值掩码，在时频域对混合信号进行处理，从而还原出干净语音。尽管在单通道场景下表现优异，这些方法在多通道场景下的性能仍显不足，主要原因在于：a）未能充分挖掘可用的空间信息；b）仍将深度网络架构视为“黑箱”，这可能并不适用于多通道音频处理任务。本文针对上述问题，提出两项改进：a）采用复数比率掩码（complex ratio masking）而非仅对谱图幅度进行掩码，以更完整地保留相位信息；b）更重要的是，在深度网络架构中引入通道注意力机制（channel-attention mechanism），以模拟波束成形（beamforming）的效果。为此，我们提出了一种名为通道注意力密集U-Net（Channel-Attention Dense U-Net）的新型网络结构，该结构在每一层的特征图上递归地应用通道注意力单元，使网络能够实现非线性的波束成形。实验结果表明，该方法在CHiME-3数据集上的性能显著优于现有最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

通道注意力密集U-Net用于多通道语音增强 | 论文 | HyperAI超神经