
摘要
现有研究已表明,提取具有代表性的视觉特征并高效融合音频与视觉模态,对于音视频语音识别(Audio-Visual Speech Recognition, AVSR)至关重要,但这一目标仍面临诸多挑战。为此,本文提出一种基于唇部图结构辅助的双向同步融合音视频语音识别方法。首先,构建一个混合视觉流,融合图像分支与图结构分支,以捕捉具有判别性的视觉特征。其中,唇部图利用唇部关键点之间的自然动态关联来建模唇形,并通过图卷积网络(Graph Convolutional Networks)结合双向门控循环单元(Bidirectional Gated Recurrent Units)捕捉唇部图在时间维度上的演化特征。其次,采用基于注意力机制的双向同步融合策略,将混合视觉流与音频流进行融合,实现两个模态间的双向信息交互,有效缓解融合过程中存在的模态不同步问题。在LRW-BBC数据集上的实验结果表明,所提方法在干净环境与噪声环境下均显著优于端到端的AVSR基线模型。