
摘要
源分离模型通常在频谱图(spectrogram)或波形(waveform)域中运行。在本研究中,我们提出了一种端到端的混合源分离方法,使模型能够自主判断每种声源最适合在哪个域进行处理,甚至可同时结合两种域的优势。所提出的Demucs架构的混合版本在索尼公司主办的2021年音乐分离挑战赛(Music Demixing Challenge 2021)中夺得冠军。该架构还引入了多项改进,包括压缩残差分支(compressed residual branches)、局部注意力机制(local attention)以及奇异值正则化(singular value regularization)。总体而言,在MusDB HQ数据集上的评估显示,所有声源的信干比(Signal-to-Distortion Ratio, SDR)平均提升了1.4 dB。这一性能提升也得到了人工主观评价的验证:整体音质评分为2.83分(非混合版本Demucs为2.36分),且无干扰(contamination)评分达到3.04分(非混合版本为2.37分,竞赛中第二名模型为2.44分)。