17日前

事前学習された言語モデルからCifベースの音声認識器への階層的蒸留による知識転移

Minglun Han, Feilong Chen, Jing Shi, Shuang Xu, Bo Xu
事前学習された言語モデルからCifベースの音声認識器への階層的蒸留による知識転移
要約

大規模な事前学習済み言語モデル(PLM)は、自然言語処理タスクにおいて大きな可能性を示している。このPLMの能力を活用して自動音声認識(ASR)システムを向上させるアプローチも、有望な研究分野として注目されている。しかし、従来の手法はPLMの構造の柔軟性の欠如や、PLMの能力の十分な活用不足といった課題に直面している。こうした問題を軽減するため、本研究では連続的統合・放電(CIF)に基づくASRモデルに対して階層的知識蒸留(HKD)を提案する。PLMからASRモデルへの知識転移を実現するため、HKDは音響レベルで対照的損失(contrastive loss)を用いたマルチモーダル知識蒸留と、言語レベルで回帰損失(regression loss)を用いた知識蒸留を組み合わせる。CIFベースの元モデルと比較して、本手法はAISHELL-1データセットおよびLibriSpeechデータセットにおいて、それぞれ15%および9%の相対誤差率低減を達成した。