
摘要
目前大多数成功的源分离技术使用幅度谱图作为输入,因此默认情况下忽略了信号的一部分:相位。为了避免遗漏潜在的有用信息,我们研究了端到端模型在音乐源分离中的可行性——这些模型考虑了原始音频信号中包含的所有信息,包括相位。尽管在过去几十年中,端到端音乐源分离被认为几乎无法实现,但我们的研究结果证实,基于波形的模型可以达到与基于谱图的深度学习模型相当(甚至更好)的性能。具体而言,我们提出的基于Wavenet的模型和Wave-U-Net在性能上超过了最近的一种基于谱图的深度学习模型DeepConvSep。