1 个月前
大规模视觉语音识别
Brendan Shillingford; Yannis Assael; Matthew W. Hoffman; Thomas Paine; Cían Hughes; Utsav Prabhu; Hank Liao; Hasim Sak; Kanishka Rao; Lorrayne Bennett; Marie Mulville; Ben Coppin; Ben Laurie; Andrew Senior; Nando de Freitas

摘要
这项研究提出了一种可扩展的开放词汇视觉语音识别解决方案。为了实现这一目标,我们构建了目前最大的视觉语音识别数据集,包含文本和说话人脸的视频片段配对(总计3,886小时的视频)。同时,我们设计并训练了一个集成的唇读系统,该系统由一个将原始视频映射为稳定的唇部视频和音素序列的视频处理流水线、一个可扩展的深度神经网络(该网络将唇部视频映射为音素分布序列)以及一个生产级别的语音解码器(输出单词序列)组成。所提出的系统在保留测试集上的词错误率(WER)达到了40.9%。相比之下,专业唇读者在同一数据集上即使拥有额外类型的上下文信息,其词错误率仍高达86.4%或92.9%。我们的方法显著优于其他唇读方法,包括LipNet及其变体和Watch, Attend, and Spell (WAS)方法,后者的词错误率分别为89.8%和76.8%。