17 天前

基于分层蒸馏的预训练语言模型到CIF-基语音识别器的知识迁移

Minglun Han, Feilong Chen, Jing Shi, Shuang Xu, Bo Xu

摘要

大规模预训练语言模型（Pre-trained Language Models, PLMs）在自然语言处理任务中展现出巨大潜力。利用PLMs的能力来提升自动语音识别（ASR）系统，已成为一个极具前景的研究方向。然而，以往的研究在一定程度上受限于PLMs结构的僵化性以及对PLMs能力的利用不充分。为缓解上述问题，本文提出了一种基于连续积分-放电（Continuous Integrate-and-Fire, CIF）架构的ASR模型的分层知识蒸馏（Hierarchical Knowledge Distillation, HKD）方法。为实现从PLMs向ASR模型的知识迁移，HKD在声学层面采用基于对比损失的跨模态知识蒸馏，在语言层面则采用基于回归损失的知识蒸馏。与原始的CIF架构模型相比，所提方法在AISHELL-1和LibriSpeech数据集上分别实现了15%和9%的相对错误率降低。