
摘要
我们提出了一种面向低资源环境的新型语音活动检测(Voice Activity Detection, VAD)模型。其核心思想是将VAD建模为一个去噪任务,并设计一种网络结构,用于识别对语音分类任务具有干扰性的特征。该模型在预测语音事件类型的同时,能够有效识别并抑制无关特征。模型参数量仅为7.8K,在AVA-Speech评估集上优于此前提出的各类方法,并在HAVIC数据集上取得了具有竞争力的实验结果。本文详细介绍了模型架构、实验结果以及对模型各组件的消融研究。相关代码与模型已公开发布于:https://www.github.com/jsvir/vad。