6 个月前

音频和语音处理

卷积神经网络

Yi Luo Jianwei Yu

摘要

近年来，得益于新型神经网络架构与训练流程的发展，音乐源分离（Music Source Separation, MSS）模型的性能得到了显著提升。然而，当前大多数MSS模型的设计主要受到其他音频处理任务或研究领域的启发，尚未充分挖掘音乐信号本身的内在特性与规律。为此，本文提出一种频域模型——带宽分割循环神经网络（Band-Split RNN, BSRNN），该模型显式地将混合信号的谱图分割为多个子频带，并在子频带层级与序列层级之间进行交替建模。子频带的带宽可依据目标声源的先验知识或专家经验进行设定，从而针对特定类型乐器实现性能优化。为进一步利用未标注数据，本文还提出一种半监督微调（semi-supervised fine-tuning）流程，可进一步提升模型性能。实验结果表明，仅在MUSDB18-HQ数据集上训练的BSRNN，在2021年音乐混音分离（Music Demixing, MDX）挑战赛中显著优于多个顶尖模型，且半监督微调阶段在全部四类乐器音轨上均进一步提升了分离效果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

卷积神经网络

Yi Luo Jianwei Yu

摘要

近年来，得益于新型神经网络架构与训练流程的发展，音乐源分离（Music Source Separation, MSS）模型的性能得到了显著提升。然而，当前大多数MSS模型的设计主要受到其他音频处理任务或研究领域的启发，尚未充分挖掘音乐信号本身的内在特性与规律。为此，本文提出一种频域模型——带宽分割循环神经网络（Band-Split RNN, BSRNN），该模型显式地将混合信号的谱图分割为多个子频带，并在子频带层级与序列层级之间进行交替建模。子频带的带宽可依据目标声源的先验知识或专家经验进行设定，从而针对特定类型乐器实现性能优化。为进一步利用未标注数据，本文还提出一种半监督微调（semi-supervised fine-tuning）流程，可进一步提升模型性能。实验结果表明，仅在MUSDB18-HQ数据集上训练的BSRNN，在2021年音乐混音分离（Music Demixing, MDX）挑战赛中显著优于多个顶尖模型，且半监督微调阶段在全部四类乐器音轨上均进一步提升了分离效果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供