10 天前

判别式多模态语音识别

Bo Xu, Cheng Lu, Yandong Guo, Jacob Wang
判别式多模态语音识别
摘要

视觉常被用作语音识别(ASR)的补充模态,尤其是在噪声环境下,单一音频模态的性能显著下降时。通过融合视觉信息,语音识别系统升级为多模态语音识别(MSR)。本文提出了一种两阶段语音识别模型。在第一阶段,利用唇部运动的对应视觉信息,从背景噪声中分离出目标语音,使模型能够“清晰地聆听”。在第二阶段,音频模态再次与视觉模态融合,通过一个MSR子网络更准确地理解语音内容,进一步提升识别准确率。本文的主要贡献包括:提出一种基于伪三维残差卷积(P3D)的视觉前端,以提取更具判别性的视觉特征;将原有的1D ResNet结构中的时序卷积模块升级为时序卷积网络(TCN),更适用于时序建模任务;在MSR子网络中采用逐元素注意力门控循环单元(EleAtt-GRU),其在处理长序列时相比Transformer表现更优。我们在LRS3-TED和LRW两个数据集上进行了大量实验。结果表明,所提出的两阶段模型(增强音频的多模态语音识别,AE-MSR)在各项指标上均显著优于现有方法,持续达到当前最优性能,充分验证了AE-MSR方法的有效性与必要性。