6 个月前

卷积神经网络

音频和语音处理

Weinan Tong Jiaxu Zhu Jun Chen Shiyin Kang Tao Jiang Yang Li Zhiyong Wu Helen Meng

摘要

基于深度学习的音乐源分离方法已取得显著进展。然而，在超宽频带音乐源分离任务中，如何在保持低模型复杂度的同时获得优异性能，仍是尚未解决的挑战。以往方法或忽视子带之间的差异，或未能有效应对生成子带特征时的信息损失问题。本文提出一种新型频域网络——SCNet，该方法显式地将混合信号的频谱图分割为多个子带，并引入一种基于稀疏性的编码器来建模不同频率带。对于信息量较少的子带，采用更高的压缩比率以提升信息密度；同时，将建模重点集中于信息量丰富的子带。该策略在显著提升分离性能的同时，大幅降低计算开销。实验结果表明，所提模型在未使用额外数据的情况下，于MUSDB18-HQ数据集上实现了9.0 dB的信号失真比（SDR），优于现有最先进方法。具体而言，SCNet在CPU上的推理时间仅为先前先进模型HT Demucs的48%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

音频和语音处理

Weinan Tong Jiaxu Zhu Jun Chen Shiyin Kang Tao Jiang Yang Li Zhiyong Wu Helen Meng

摘要

基于深度学习的音乐源分离方法已取得显著进展。然而，在超宽频带音乐源分离任务中，如何在保持低模型复杂度的同时获得优异性能，仍是尚未解决的挑战。以往方法或忽视子带之间的差异，或未能有效应对生成子带特征时的信息损失问题。本文提出一种新型频域网络——SCNet，该方法显式地将混合信号的频谱图分割为多个子带，并引入一种基于稀疏性的编码器来建模不同频率带。对于信息量较少的子带，采用更高的压缩比率以提升信息密度；同时，将建模重点集中于信息量丰富的子带。该策略在显著提升分离性能的同时，大幅降低计算开销。实验结果表明，所提模型在未使用额外数据的情况下，于MUSDB18-HQ数据集上实现了9.0 dB的信号失真比（SDR），优于现有最先进方法。具体而言，SCNet在CPU上的推理时间仅为先前先进模型HT Demucs的48%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供