
摘要
近年来,由于深度学习技术的进展,唇读(lip-reading)吸引了大量研究关注。目前在真实场景下孤立词识别的最先进模型由残差网络(Residual Network)与双向门控循环单元(Bidirectional Gated Recurrent Unit, BGRU)层构成。本文针对该模型的局限性提出改进方案,进一步提升了其性能。首先,将BGRU层替换为时序卷积网络(Temporal Convolutional Network, TCN),以增强对时间序列特征的建模能力;其次,大幅简化了训练流程,使得模型能够在单一阶段内完成训练;第三,我们发现当前最先进方法所训练的模型在序列长度变化时泛化能力较差,为此提出一种可变长度数据增强策略以缓解该问题。我们在两个目前最大规模的公开孤立词识别数据集——英文数据集LRW与中文数据集LRW1000上进行了实验验证。所提出的模型在上述两个数据集上分别取得了1.2%和3.2%的绝对性能提升,达到新的最先进水平。