
摘要
音乐源分离的任务是从由不同乐器分别录制并混合成一首歌曲的音频中,分离出各个独立的声部(或称“音轨”),这些声部通常包括人声、贝斯、鼓以及其他伴奏部分。与许多音频合成任务中直接生成波形(waveform)的模型能够取得最佳性能不同,当前音乐源分离领域的最先进方法主要基于在幅度谱(magnitude spectrum)上计算掩码(mask)。本文对比了两种基于波形域(waveform domain)的架构。我们首先将最初为语音源分离设计的Conv-Tasnet模型适配至音乐源分离任务。尽管Conv-Tasnet在性能上超越了多种现有的谱域方法,但其生成结果在主观听觉评估中仍存在显著失真问题。为此,我们提出了一种新型的端到端波形到波形(waveform-to-waveform)模型——Demucs,该模型采用U-Net结构结合双向长短期记忆网络(bidirectional LSTM)。在MusDB数据集上的实验表明,通过合理的数据增强策略,Demucs在平均信噪比(SDR)上达到6.3分,最高可达6.8分(使用额外150首训练歌曲时),甚至在贝斯声部上超越了理想比率掩码(IRM)的理论最优基准。借助最新的模型量化技术,Demucs可压缩至仅120MB大小,且不损失任何精度。我们还提供了主观听觉评估结果,证实Demucs在音频自然度方面具有显著优势。然而,该模型仍存在一定程度的“串扰”(bleeding)现象,尤其是在人声与其他声部之间更为明显。