6 个月前

音频和语音处理

卷积神经网络

多任务学习

Alexandre Défossez

摘要

源分离模型通常在频谱图（spectrogram）或波形（waveform）域中运行。在本研究中，我们提出了一种端到端的混合源分离方法，使模型能够自主判断每种声源最适合在哪个域进行处理，甚至可同时结合两种域的优势。所提出的Demucs架构的混合版本在索尼公司主办的2021年音乐分离挑战赛（Music Demixing Challenge 2021）中夺得冠军。该架构还引入了多项改进，包括压缩残差分支（compressed residual branches）、局部注意力机制（local attention）以及奇异值正则化（singular value regularization）。总体而言，在MusDB HQ数据集上的评估显示，所有声源的信干比（Signal-to-Distortion Ratio, SDR）平均提升了1.4 dB。这一性能提升也得到了人工主观评价的验证：整体音质评分为2.83分（非混合版本Demucs为2.36分），且无干扰（contamination）评分达到3.04分（非混合版本为2.37分，竞赛中第二名模型为2.44分）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

卷积神经网络

多任务学习

Alexandre Défossez

摘要

源分离模型通常在频谱图（spectrogram）或波形（waveform）域中运行。在本研究中，我们提出了一种端到端的混合源分离方法，使模型能够自主判断每种声源最适合在哪个域进行处理，甚至可同时结合两种域的优势。所提出的Demucs架构的混合版本在索尼公司主办的2021年音乐分离挑战赛（Music Demixing Challenge 2021）中夺得冠军。该架构还引入了多项改进，包括压缩残差分支（compressed residual branches）、局部注意力机制（local attention）以及奇异值正则化（singular value regularization）。总体而言，在MusDB HQ数据集上的评估显示，所有声源的信干比（Signal-to-Distortion Ratio, SDR）平均提升了1.4 dB。这一性能提升也得到了人工主观评价的验证：整体音质评分为2.83分（非混合版本Demucs为2.36分），且无干扰（contamination）评分达到3.04分（非混合版本为2.37分，竞赛中第二名模型为2.44分）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供