
摘要
唇读,也称为视觉语音识别,旨在通过分析视频中的唇部动态来识别语音内容。近年来,得益于深度学习技术的快速发展以及大规模唇读数据集的出现,该领域取得了若干令人瞩目的进展。现有的大多数方法通过构建复杂的神经网络并结合几种定制的训练策略实现了高性能,而这些策略通常仅在简短的描述中提及,甚至只在源代码中展示。我们发现,合理利用这些策略可以在不大幅改变模型的情况下带来显著的改进。鉴于这些策略的重要影响以及训练有效唇读模型所面临的挑战,我们首次进行了全面的定量研究和比较分析,以展示不同选择对唇读效果的影响。通过仅对基线流程引入一些易于实现的改进措施,我们在两个最大的公开唇读数据集LRW和LRW-1000上分别将性能从83.7%提升至88.4%,从38.2%提升至55.7%。这些结果与现有最先进水平相当,甚至有所超越。