
摘要
我们提出Wavesplit,一种端到端的语音源分离系统。该模型仅需输入单一混合信号,即可推断出每个声源的表示,并基于这些推断出的表示估计各个声源的信号。模型在原始波形上联合训练,同时完成声源表示推断与信号重建两项任务。Wavesplit通过聚类方式推断一组声源表示,有效解决了分离任务中的根本性排列问题。在语音分离任务中,我们的序列级说话人表示相较于以往方法,能够更稳健地处理长时、复杂的语音录音。Wavesplit在2人或3人清晰混合语音(WSJ0-2mix/3mix)任务上重新定义了当前最优性能,同时在噪声与混响环境(WHAM/WHAMR)下也取得了显著提升。此外,我们在最新的LibriMix数据集上建立了新的基准。最后,我们还展示了Wavesplit在其他领域的适用性——仅通过单个腹部心电图信号,即可成功分离出胎儿与母体的心率信号。