1 个月前
LipNet:端到端的句子级唇读模型
Yannis M. Assael; Brendan Shillingford; Shimon Whiteson; Nando de Freitas

摘要
唇读是指从说话者口型运动中解码文字的任务。传统方法将这一问题分为两个阶段:设计或学习视觉特征,以及预测。近年来,深度唇读方法实现了端到端的可训练性(Wand等人,2016;Chung和Zisserman,2016a)。然而,现有的端到端训练模型仅能进行单词分类,而不能进行句子级别的序列预测。研究表明,人类唇读性能随着单词长度的增加而提高(Easton和Basala,1982),这表明在模糊的通信渠道中,捕捉时间上下文的特征非常重要。受此观察的启发,我们提出了LipNet模型,该模型将可变长度的视频帧序列映射为文本,利用时空卷积、循环网络和连接时序分类损失函数,并且完全以端到端的方式进行训练。据我们所知,LipNet是首个能够同时学习时空视觉特征和序列模型的端到端句子级别唇读模型。在GRID语料库上,LipNet在句子级别的重叠说话者分割任务中达到了95.2%的准确率,超过了经验丰富的唇读专家和之前86.4%的单词级别最先进准确率(Gergen等人,2016)。