
摘要
音乐源分离(Music Source Separation, MSS)旨在从混合音频中提取“人声”、“鼓”、“贝斯”和“其他”等独立音轨。尽管深度学习方法已取得显著成果,但当前趋势是采用参数量更大的模型。本文提出一种新颖且轻量级的网络架构——DTTNet,其基于双路径模块(Dual-Path Module)与时间-频率卷积时间分布式全连接UNet(Time-Frequency Convolution Time-Distributed Fully-connected UNet, TFC-TDF UNet)。在“人声”分离任务中,DTTNet达到10.12 dB的cSDR(信噪比增强指标),优于此前报道的Bandsplit RNN(BSRNN)的10.01 dB,同时参数量减少了86.7%。此外,本文还针对复杂音频模式下的特定模式性能表现及模型泛化能力进行了系统评估。