4 个月前

利用策略学习改进端到端语音识别

Yingbo Zhou; Caiming Xiong; Richard Socher
利用策略学习改进端到端语音识别
摘要

连接时序分类(Connectionist Temporal Classification, CTC)在端到端语音识别模型的最大似然学习中被广泛应用。然而,通常情况下,负最大似然与语音识别中使用的性能指标(如词错误率(Word Error Rate, WER))之间存在差异。这导致了训练过程中目标函数与性能指标之间的不匹配。我们展示了通过联合最大似然和策略梯度进行训练可以缓解上述问题。特别是,通过策略学习,我们可以直接优化那些原本不可微分的性能指标。实验结果表明,联合训练相对于仅通过最大似然学习的相同模型,相对性能提高了4%至13%。该模型在华尔街日报数据集上达到了5.53%的WER,在LibriSpeech测试清洁集和测试其他集上的WER分别为5.42%和14.70%。