3ヶ月前
Librispeech Transducer モデルにおける内部言語モデル事前分布補正
Albert Zeyer, André Merboldt, Wilfried Michel, Ralf Schlüter, Hermann Ney

要約
我々はLibrispeech上でトランシーダーモデルを提示する。本研究では、外部言語モデル(LM)をシャロウフュージョンにより組み込むバリエーションを検討し、推定された内部言語モデルを差し引く手法を提案する。これは、トランシーダーモデルの事前確率が推定された内部言語モデルによって与えられるベイズ的解釈に基づくものである。内部言語モデルを差し引くことで、従来のシャロウフュージョンに比べて相対的に14%以上の性能向上が達成される。本トランシーダーは、非ブランクラベルに対して独立した確率分布を採用しており、これにより外部言語モデルとの組み合わせが容易になり、内部言語モデルの推定もより簡便になる。さらに、最後のブランク確率に外部言語モデルの文末(EOS)確率を適切に組み込む処理を実施することで、性能のさらなる向上が得られる。本研究で用いたすべてのコードおよび設定は公開されている。