15 天前

两步声源分离:基于学习的潜在目标训练

Efthymios Tzinis, Shrikant Venkataramani, Zhepei Wang, Cem Subakan, Paris Smaragdis
两步声源分离:基于学习的潜在目标训练
摘要

本文提出了一种基于深度神经网络的语音分离两阶段训练方法。在第一阶段,我们学习一个映射变换(及其逆变换),将信号转换至一个潜在空间,在该空间中,基于掩码的分离方法在使用理想掩码(oracle)时可达到最优性能。在第二阶段,我们在第一阶段所学习的潜在空间上训练一个分离模块。为实现这一目标,我们还引入了一种适用于潜在空间的尺度不变信干比(SI-SDR)损失函数,并证明该损失函数在潜在空间中的值可作为时域SI-SDR的下界。通过一系列语音分离实验,我们验证了该方法相较于联合学习变换与分离模块的系统,能够获得更优的分离性能。所提出的框架具有较强的通用性,可广泛适用于各类神经网络端到端语音分离系统。

两步声源分离:基于学习的潜在目标训练 | 最新论文 | HyperAI超神经