17 天前

基于时序卷积网络的DNN低延迟语音增强最佳损失函数探索

Yuichiro Koyama, Tyler Vuong, Stefan Uhlich, Bhiksha Raj
基于时序卷积网络的DNN低延迟语音增强最佳损失函数探索
摘要

近年来,深度神经网络(DNN)在语音增强领域取得了成功应用,基于DNN的语音增强已成为一个极具吸引力的研究方向。尽管过去几年中,基于短时傅里叶变换(STFT)的时频掩蔽方法在DNN语音增强中被广泛采用,但时域方法如时域音频分离网络(TasNet)也相继被提出。最适合的方法取决于数据集的规模以及具体任务类型。本文针对两个不同数据集,系统探索了最优的语音增强算法。我们提出了一种基于STFT的方法,并引入一种利用与任务无关的语音编码器(PASE)特征的损失函数,以提升小规模数据集上的主观语音质量。所提出的方法在Voice Bank + DEMAND数据集上表现优异,且在性能上优于其他先进方法。此外,我们还实现了一个低延迟版本的TasNet,并将其提交至DNS挑战赛,同时通过开源方式公开发布。该模型在DNS挑战赛数据集上取得了卓越的性能表现。