
摘要
近年来,随着深度学习技术的快速发展及其在众多领域中广泛的应用潜力,唇读(lip reading)任务受到了越来越多的研究关注。要实现优异的唇读性能,关键在于所提取的特征表示能否有效捕捉唇部运动信息,同时具备对姿态变化、光照条件、说话人外貌差异等噪声因素的鲁棒性。针对这一目标,本文提出在局部特征层面与全局序列层面同时引入互信息约束,以增强特征与语音内容之间的关联性。一方面,我们在每个时间步生成的特征上施加局部互信息最大化约束(Local Mutual Information Maximization, LMIM),强制模型学习到的特征与语音内容之间建立强关联,从而显著提升模型对细微唇动特征的识别能力,以及对发音相似但语义不同的词语(如“spend”与“spending”)之间细微差别的区分能力。另一方面,我们在全局序列层面引入互信息最大化约束(Global Mutual Information Maximization, GMIM),促使模型能够更加关注与语音内容相关的关键帧,同时抑制说话过程中出现的各类干扰噪声的影响。通过联合利用上述两方面的优势,所提出的模型在保持强判别性的同时,也展现出优异的鲁棒性,从而实现更有效的唇读性能。为验证该方法的有效性,我们在两个大规模基准数据集上进行了实验评估,并从多个角度进行了深入分析与对比,包括LMIM与GMIM相对于基线方法的性能对比、所学习特征表示的可视化分析等。实验结果不仅充分证明了所提方法的有效性,还在两个基准数据集上均取得了新的最先进(state-of-the-art)性能。