HyperAIHyperAI

Command Palette

Search for a command to run...

事前学習された言語モデルからCifベースの音声認識器への階層的蒸留による知識転移

Minglun Han Feilong Chen Jing Shi Shuang Xu Bo Xu

概要

大規模な事前学習済み言語モデル(PLM)は、自然言語処理タスクにおいて大きな可能性を示している。このPLMの能力を活用して自動音声認識(ASR)システムを向上させるアプローチも、有望な研究分野として注目されている。しかし、従来の手法はPLMの構造の柔軟性の欠如や、PLMの能力の十分な活用不足といった課題に直面している。こうした問題を軽減するため、本研究では連続的統合・放電(CIF)に基づくASRモデルに対して階層的知識蒸留(HKD)を提案する。PLMからASRモデルへの知識転移を実現するため、HKDは音響レベルで対照的損失(contrastive loss)を用いたマルチモーダル知識蒸留と、言語レベルで回帰損失(regression loss)を用いた知識蒸留を組み合わせる。CIFベースの元モデルと比較して、本手法はAISHELL-1データセットおよびLibriSpeechデータセットにおいて、それぞれ15%および9%の相対誤差率低減を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています