6 个月前

摘要

视觉常被用作语音识别（ASR）的补充模态，尤其是在噪声环境下，单一音频模态的性能显著下降时。通过融合视觉信息，语音识别系统升级为多模态语音识别（MSR）。本文提出了一种两阶段语音识别模型。在第一阶段，利用唇部运动的对应视觉信息，从背景噪声中分离出目标语音，使模型能够“清晰地聆听”。在第二阶段，音频模态再次与视觉模态融合，通过一个MSR子网络更准确地理解语音内容，进一步提升识别准确率。本文的主要贡献包括：提出一种基于伪三维残差卷积（P3D）的视觉前端，以提取更具判别性的视觉特征；将原有的1D ResNet结构中的时序卷积模块升级为时序卷积网络（TCN），更适用于时序建模任务；在MSR子网络中采用逐元素注意力门控循环单元（EleAtt-GRU），其在处理长序列时相比Transformer表现更优。我们在LRS3-TED和LRW两个数据集上进行了大量实验。结果表明，所提出的两阶段模型（增强音频的多模态语音识别，AE-MSR）在各项指标上均显著优于现有方法，持续达到当前最优性能，充分验证了AE-MSR方法的有效性与必要性。

源 PDF