
要約
音声認識などの系列変換タスクにおいて、強力な構造的事前モデルはターゲット空間に関する豊富な情報を符号化しており、無効な系列に対して低い確率を割り当てることで、それらを間接的に排除する。本研究では、ラベルなし音声データ上で学習する判別モデルに学習信号を提供するため、強力な事前モデル(例えば言語モデル)から知識を抽出する半教師あり目的関数として、局所的事前モデル一致(Local Prior Matching: LPM)を提案する。我々は、LPMが理論的に根拠を持ち、実装が簡単であり、同等の設定下で既存の知識蒸留手法を上回ることを示した。ラベル付き音声データ100時間で訓練されたベースラインモデルに、追加で360時間のラベルなしデータを用いた場合、LPMはクリーンなテストセットおよびノイズのあるテストセットにおいて、同じデータ上で完全に教師あり学習されたモデルと比較して、語誤り率(WER)をそれぞれ54%および73%まで回復することを確認した。