
摘要
音视频表示学习在推动多模态语音处理任务(如唇读和音视频语音识别)方面具有关键作用。近年来,语音基础模型(Speech Foundation Models, SFMs)在多种语音相关任务中展现出卓越的泛化能力。基于这一进展,本文提出一种音视频表示学习模型,该模型通过从SFMs中蒸馏跨模态知识来实现性能提升。在所提方法中,SFMs作为教师模型,利用纯净音频输入提取其多层隐藏表示。同时,我们引入一种多教师集成蒸馏策略,将音视频数据作为学生模型的输入,以实现更有效的知识迁移。为训练学生模型,在预训练阶段采用一种新型表示知识蒸馏损失函数,并在微调阶段继续应用该损失,从而进一步提升下游任务的性能。实验中,我们分别使用了自监督的SFMs(WavLM)和监督学习的SFMs(iFLYTEK-speech)作为教师模型。结果表明,所提出的方法在自动语音识别、视觉语音识别以及音视频语音识别等多项任务上,均达到或优于现有最先进基准模型的性能。此外,通过全面的消融实验以及对学习表示的可视化分析,进一步验证了所提方法的有效性。