17 天前
RemixIT:通过自举混音实现语音增强模型的持续自训练
Efthymios Tzinis, Yossi Adi, Vamsi Krishna Ithapu, Buye Xu, Paris Smaragdis, Anurag Kumar

摘要
我们提出RemixIT,一种简单而高效的自监督语音增强方法,无需依赖任何孤立的域内语音信号或噪声波形。该方法克服了以往方法的局限性——这些方法通常依赖于干净的域内目标信号,因而对训练集与测试集之间的域不匹配极为敏感。RemixIT基于一种连续的自训练机制:首先,利用在域外数据上预训练的教师模型,对域内混合信号推断出伪目标信号;随后,通过随机打乱并重新混合这些估计出的干净语音与噪声信号,生成一组新的自举(bootstrapped)混合信号及其对应的伪目标信号,用于训练学生网络。反之,教师模型则周期性地利用最新学生模型的更新参数来优化自身的估计。在多个语音增强数据集和任务上的实验结果不仅证明了该方法相较于以往方法的优越性,还表明RemixIT可与任意分离模型结合使用,并适用于各类半监督与无监督域适应任务。我们的分析结合实证证据,揭示了该自训练机制的内在运作机制:尽管学生模型所观察到的伪目标信号质量严重退化,其性能仍持续提升。