8 个月前

摘要

本文的目标是学习强大的唇读模型，以识别无声视频中的语音。大多数先前的研究通过在简单的视觉特征池化基础上应用现有的自动语音识别技术来解决开放集视觉语音识别问题。相比之下，本文重点关注唇读中遇到的独特挑战，并提出量身定制的解决方案。为此，我们做出了以下贡献：（1）提出了一种基于注意力机制的池化方法，用于聚合视觉语音表示；（2）首次在唇读中使用子词单元，并展示了这种方法能够更好地建模任务的模糊性；（3）提出了一种视觉语音检测（VSD）模型，该模型在唇读网络的基础上进行训练。通过上述方法，在公共数据集上训练时，我们在具有挑战性的LRS2和LRS3基准测试中取得了最先进的结果，甚至在使用比大规模工业数据集少一个数量级的数据的情况下超越了这些数据集上的模型。我们的最佳模型在LRS2数据集上实现了22.6%的词错误率，这是唇读模型前所未有的性能表现，显著缩小了唇读与自动语音识别之间的性能差距。此外，在AVA-ActiveSpeaker基准测试中，我们的VSD模型超越了所有仅基于视觉的方法，并且优于几种最近的音视频联合方法。

源 PDF