HyperAIHyperAI

Command Palette

Search for a command to run...

ADA-VAD:无配对对抗域自适应的噪声鲁棒语音活动检测

Jong Hwan Ko Jiho Chang Taesoo Kim

摘要

语音活动检测(Voice Activity Detection, VAD)正逐渐成为各类语音处理系统中不可或缺的前端组件。由于这些系统通常部署于噪声类型多样且信噪比(SNR)较低的复杂环境中,因此高效的VAD方法必须具备在嘈杂背景信号中稳健识别语音段落的能力。本文提出了一种基于对抗域适应的VAD方法——ADA-VAD,该方法是一种深度神经网络(DNN)驱动的VAD技术,对不同噪声类型及低信噪比环境下的音频样本具有极强的鲁棒性。所提方法采用监督学习方式训练DNN模型完成VAD任务;同时,为缓解背景噪声导致的性能下降问题,引入对抗域适应机制,以无监督方式实现对噪声音频流与干净音频流之间域差异的匹配。实验结果表明,在AVA-speech数据集上,ADA-VAD相较于使用人工提取特征训练的模型,平均AUC提升3.6个百分点;在使用未见噪声数据库合成的语音数据库上,平均AUC提升达7个百分点。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供