声学模型 Acoustic modeling

声学模型用于计算模型产生语音波形的概率,它是语音识别系统中最为重要的部分之一,且占据大部分计算开销,决定着语音识别系统的性能。

发展历程

  • 传统方法:基于隐马尔可夫的声学模型,如 GMM-HMM 建模方法 —— GMM 用于对语音声学特征的分布进行建模,HMM 用于对语音信号的时序性进行建模;
  • 深度神经网络:用于语音声学模型,Hinton 及其学生于 2009 年将前馈全连接深度神经网络用于语音识别,在 TIMIT 数据集上比基于 DNN-HMM 的声学模型具有更好的性能;
  • 利用可变长度语境信息:2015 年,利用可变长度语音信息的声学模型被投入使用,语音信息的最优长度受音素和语速的影响,DNN-HMM 混合系统中固定长度语境窗口并非最佳选择,近些年的新模型以循环神经网络 RNN 和卷积神经网络 CNN 为主。

参考来源

【1】语音识别技术之声学模型 – 52AI   人工智能 – CSDN 博客

【2】腾讯 AI Lab 副主任俞栋:过去两年基于深度学习的声学模型进展 | 机器之心