1 个月前

在野外环境中进行唇读句子的研究

Joon Son Chung; Andrew Senior; Oriol Vinyals; Andrew Zisserman
在野外环境中进行唇读句子的研究
摘要

本研究的目标是在有或没有音频的情况下识别说话人脸所说的短语和句子。与以往专注于识别有限数量词汇或短语的工作不同,我们把唇读视为一个开放世界问题——即不受限制的自然语言句子和野外视频。我们的主要贡献包括:(1) 一种“观察、聆听、注意和拼写”(Watch, Listen, Attend and Spell, WLAS)网络,该网络能够学习将嘴部运动的视频转录为字符;(2) 一种课程学习策略,用于加速训练并减少过拟合;(3) 一个名为“唇读句子”(Lip Reading Sentences, LRS)的数据集,用于视觉语音识别,包含超过10万条来自英国电视的自然句子。在LRS数据集上训练的WLAS模型在标准唇读基准数据集上的表现超过了所有先前的研究工作,且通常具有显著的优势。该唇读性能在BBC电视视频中超越了专业唇读者的表现,同时我们还证明了即使在有音频的情况下,视觉信息也有助于提高语音识别的性能。