17 天前

基于自举重混的持续自训练在语音增强中的应用

Efthymios Tzinis, Yossi Adi, Vamsi K. Ithapu, Buye Xu, Anurag Kumar
基于自举重混的持续自训练在语音增强中的应用
摘要

我们提出了一种名为RemixIT的简单而新颖的自监督语音增强训练方法。该方法基于一种持续自训练机制,克服了以往研究中存在的局限性,例如对域内噪声分布的假设以及需要访问干净目标信号的限制。具体而言,首先在一个域外数据集上预训练一个分离教师模型,该模型用于推断一批域内混合语音的估计目标信号。随后,通过使用置换后的估计干净语音与噪声信号生成人工混合信号,实现混合过程的自举(bootstrapping)。最后,以置换后的估计源信号作为目标,训练学生模型,同时定期利用最新学生模型的参数更新教师模型的权重。实验结果表明,RemixIT在多种语音增强任务中均优于多个先前的先进自监督方法。此外,RemixIT为语音增强任务提供了无缝的半监督与无监督域适应替代方案,且具有较强的通用性,可适用于任意分离任务,并可与任意分离模型结合使用。