
摘要
语音唇读(Machine lipreading)是一种特殊的自动语音识别(ASR)技术,通过视觉分析人脸相关区域(包括嘴唇、面部及舌头)的运动来转录人类语音。近年来,基于深度神经网络的唇读方法展现出巨大潜力,在部分基准数据集上已超越经验丰富的专业人工唇读者的识别准确率。然而,唇读任务仍远未解决,现有方法在真实场景(wild data)下的错误率仍然较高。本文提出一种端到端的深度神经网络唇读系统——LCANet。LCANet采用堆叠的三维卷积神经网络(3D CNN)、高速网络(highway network)与双向门控循环单元网络(bidirectional GRU)作为编码器,有效捕捉语音序列中的短期与长期时空特征。尤为重要的是,LCANet引入了一种级联注意力-连接时序分类(cascaded attention-CTC)解码器,通过将CTC与注意力机制相结合,部分缓解了CTC在隐藏神经层中对条件独立性假设的依赖问题,从而显著提升了识别性能并加速了模型收敛。实验结果表明,所提出的系统在GRID语料库上的词错误率(WER)为3.0%,字符错误率(CER)为1.3%,相较于当前最先进的方法实现了12.3%的性能提升。