1ヶ月前
大規模視覚音声認識
Brendan Shillingford; Yannis Assael; Matthew W. Hoffman; Thomas Paine; Cían Hughes; Utsav Prabhu; Hank Liao; Hasim Sak; Kanishka Rao; Lorrayne Bennett; Marie Mulville; Ben Coppin; Ben Laurie; Andrew Senior; Nando de Freitas

要約
本研究提出了一种适用于开放词汇视觉语音识别的大规模解决方案。为此,我们构建了目前最大的视觉语音识别数据集,该数据集由文本和说话人脸的视频片段对组成(共计3,886小时的视频)。同时,我们设计并训练了一个集成唇读系统,该系统包括一个将原始视频映射为稳定的唇部视频和音素序列的视频处理管道、一个可扩展的深度神经网络,该网络将唇部视频映射为音素分布序列,以及一个生产级别的语音解码器,用于输出单词序列。所提出的系统在保留测试集上的单词错误率(WER)达到了40.9%。相比之下,专业唇读者在同一数据集中利用额外类型的上下文信息时,其WER分别为86.4%或92.9%。我们的方法显著优于其他唇读方法,包括LipNet及其变体和Watch, Attend, and Spell (WAS)及其变体,这些方法的WER分别仅为89.8%和76.8%。