1 个月前
端到端的视听语音识别
Stavros Petridis; Themos Stafylakis; Pingchuan Ma; Feipeng Cai; Georgios Tzimiropoulos; Maja Pantic

摘要
最近,提出了几种端到端的深度学习方法,这些方法从输入图像或音频信号中提取音频或视觉特征,并执行语音识别。然而,关于端到端音视频模型的研究非常有限。在本工作中,我们提出了一种基于残差网络和双向门控循环单元(BGRUs)的端到端音视频模型。据我们所知,这是首个能够同时从图像像素和音频波形中直接学习提取特征并在大型公开数据集(LRW)上进行上下文内单词识别的音视频融合模型。该模型包含两个流,每个流对应一种模态,分别从嘴部区域和原始波形中直接提取特征。每个流/模态中的时间动态由两层BGRU建模,而多个流/模态的融合则通过另一组两层BGRU实现。在干净的音频条件和低噪声水平下,该模型的分类率略有提高,超过了纯音频端到端和基于MFCC的模型。而在高噪声水平条件下,端到端音视频模型显著优于纯音频模型。