12 天前

ADA-VAD:无配对对抗域自适应的噪声鲁棒语音活动检测

{Jong Hwan Ko, Jiho Chang, Taesoo Kim}
ADA-VAD:无配对对抗域自适应的噪声鲁棒语音活动检测
摘要

语音活动检测(Voice Activity Detection, VAD)正逐渐成为各类语音处理系统中不可或缺的前端组件。由于这些系统通常部署于噪声类型多样且信噪比(SNR)较低的复杂环境中,因此高效的VAD方法必须具备在嘈杂背景信号中稳健识别语音段落的能力。本文提出了一种基于对抗域适应的VAD方法——ADA-VAD,该方法是一种深度神经网络(DNN)驱动的VAD技术,对不同噪声类型及低信噪比环境下的音频样本具有极强的鲁棒性。所提方法采用监督学习方式训练DNN模型完成VAD任务;同时,为缓解背景噪声导致的性能下降问题,引入对抗域适应机制,以无监督方式实现对噪声音频流与干净音频流之间域差异的匹配。实验结果表明,在AVA-speech数据集上,ADA-VAD相较于使用人工提取特征训练的模型,平均AUC提升3.6个百分点;在使用未见噪声数据库合成的语音数据库上,平均AUC提升达7个百分点。

ADA-VAD:无配对对抗域自适应的噪声鲁棒语音活动检测 | 最新论文 | HyperAI超神经