
摘要
本文提出了一种新型的混合语音活动检测(Voice Activity Detection, VAD)架构,该架构结合了卷积神经网络(Convolutional Neural Network, CNN)与双向长短期记忆网络(Bidirectional Long Short-Term Memory, BiLSTM)层,并采用端到端方式联合训练。此外,本文特别关注模型计算效率的优化,旨在在资源极度受限的条件下,仍能实现对复杂真实场景噪声环境下的稳健性能。通过嵌套k折交叉验证方法对超参数空间进行探索,并讨论了最优参数配置与模型规模之间的权衡关系。同时,本文还对比分析了BiLSTM层与单向LSTM层在性能上的差异。在AVA-Speech数据集上,我们将所提系统与三个成熟的基准模型进行了对比。结果表明,采用接近最优参数的显著更小模型,其性能可与经过最优参数训练的大规模模型相媲美。实验显示,BiLSTM层相较于单向LSTM层平均提升了约2%的绝对准确率。在面积曲线下(AUC)达到0.951的情况下,本系统在所有对比基线上均表现更优,尤其在复杂噪声条件下,其性能显著超越了一个规模大得多的ResNet基线模型。