11 天前

CWS-PResUNet:基于通道级子带相位感知ResUNet的音乐源分离

Haohe Liu, Qiuqiang Kong, Jiafeng Liu
CWS-PResUNet:基于通道级子带相位感知ResUNet的音乐源分离
摘要

近年来,基于深度学习的音乐源分离(Music Source Separation, MSS)技术取得了显著进展。许多现有的MSS模型通过在频谱图上估计有界比率掩码(ratio masks),并复用混合信号的相位信息来实现分离。然而,在使用卷积神经网络(Convolutional Neural Networks, CNN)时,卷积操作通常在频谱图内共享权重,而未考虑不同频带之间存在的差异性特征,这可能导致信息冗余和性能瓶颈。针对这一问题,本文提出一种新型MSS模型——通道级子带相位感知ResUNet(Channel-wise Subband Phase-aware ResUNet, CWS-PResUNet),该模型将信号分解为多个子带,并为每个音源估计无界复数理想比率掩码(complex Ideal Ratio Mask, cIRM),从而更精确地建模信号的幅度与相位关系。CWS-PResUNet引入了通道级子带(Channel-wise Subband, CWS)特征表示,有效限制了频谱图上的全局权重共享,降低了计算资源消耗。由此节省的计算成本与内存开销,进一步支持构建更深层、更复杂的网络架构。在MUSDB18HQ测试集上,我们构建了一个276层的CWS-PResUNet模型,在人声分离任务中取得了8.92的信号失真比(Signal-to-Distortion Ratio, SDR)得分,达到当前最优(State-of-the-Art, SoTA)水平。通过将CWS-PResUNet与Demucs模型相结合,我们构建的ByteMSS系统在2021年ISMIR音乐混音分离(MDX)挑战赛“有限训练数据”赛道(Leaderboard A)中,人声分离得分位列第二,平均得分位列第五。相关代码与预训练模型已公开发布于:https://github.com/haoheliu/2021-ISMIR-MSS-Challenge-CWS-PResUNet

CWS-PResUNet:基于通道级子带相位感知ResUNet的音乐源分离 | 最新论文 | HyperAI超神经