17 天前

基于局部先验匹配的半监督语音识别

Wei-Ning Hsu, Ann Lee, Gabriel Synnaeve, Awni Hannun
基于局部先验匹配的半监督语音识别
摘要

在语音识别等序列转换任务中,强结构先验模型能够编码目标空间的丰富信息,通过为无效序列赋予低概率,隐式地排除其可能性。本文提出局部先验匹配(Local Prior Matching, LPM),一种半监督学习目标,通过从强先验模型(如语言模型)中蒸馏知识,为在无标签语音数据上训练的判别模型提供学习信号。我们证明,LPM在理论上具有充分依据,实现简单,且在相同设置下优于现有的知识蒸馏方法。以100小时有标签语音数据训练的基线模型为基础,额外引入360小时无标签数据后,LPM在干净和嘈杂测试集上分别将词错误率(WER)降低至全监督模型的54%和73%,显著提升了模型性能。