6 个月前

卷积神经网络

音频和语音处理

Junyu Chen Susmitha Vekkot Pancham Shukla

摘要

音乐源分离（Music Source Separation, MSS）旨在从混合音频中提取“人声”、“鼓”、“贝斯”和“其他”等独立音轨。尽管深度学习方法已取得显著成果，但当前趋势是采用参数量更大的模型。本文提出一种新颖且轻量级的网络架构——DTTNet，其基于双路径模块（Dual-Path Module）与时间-频率卷积时间分布式全连接UNet（Time-Frequency Convolution Time-Distributed Fully-connected UNet, TFC-TDF UNet）。在“人声”分离任务中，DTTNet达到10.12 dB的cSDR（信噪比增强指标），优于此前报道的Bandsplit RNN（BSRNN）的10.01 dB，同时参数量减少了86.7%。此外，本文还针对复杂音频模式下的特定模式性能表现及模型泛化能力进行了系统评估。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

音频和语音处理

Junyu Chen Susmitha Vekkot Pancham Shukla

摘要

音乐源分离（Music Source Separation, MSS）旨在从混合音频中提取“人声”、“鼓”、“贝斯”和“其他”等独立音轨。尽管深度学习方法已取得显著成果，但当前趋势是采用参数量更大的模型。本文提出一种新颖且轻量级的网络架构——DTTNet，其基于双路径模块（Dual-Path Module）与时间-频率卷积时间分布式全连接UNet（Time-Frequency Convolution Time-Distributed Fully-connected UNet, TFC-TDF UNet）。在“人声”分离任务中，DTTNet达到10.12 dB的cSDR（信噪比增强指标），优于此前报道的Bandsplit RNN（BSRNN）的10.01 dB，同时参数量减少了86.7%。此外，本文还针对复杂音频模式下的特定模式性能表现及模型泛化能力进行了系统评估。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供