17 天前

基于分层蒸馏的预训练语言模型到CIF-基语音识别器的知识迁移

Minglun Han, Feilong Chen, Jing Shi, Shuang Xu, Bo Xu
基于分层蒸馏的预训练语言模型到CIF-基语音识别器的知识迁移
摘要

大规模预训练语言模型(Pre-trained Language Models, PLMs)在自然语言处理任务中展现出巨大潜力。利用PLMs的能力来提升自动语音识别(ASR)系统,已成为一个极具前景的研究方向。然而,以往的研究在一定程度上受限于PLMs结构的僵化性以及对PLMs能力的利用不充分。为缓解上述问题,本文提出了一种基于连续积分-放电(Continuous Integrate-and-Fire, CIF)架构的ASR模型的分层知识蒸馏(Hierarchical Knowledge Distillation, HKD)方法。为实现从PLMs向ASR模型的知识迁移,HKD在声学层面采用基于对比损失的跨模态知识蒸馏,在语言层面则采用基于回归损失的知识蒸馏。与原始的CIF架构模型相比,所提方法在AISHELL-1和LibriSpeech数据集上分别实现了15%和9%的相对错误率降低。