17日前
ラティスフリーMMIに基づく、純粋にシーケンス学習されたASR用ニューラルネットワーク
{Sanjeev Khudanpur, Xingyu Na, Yiming Wang, Daniel Povey, Vimal Manohar, Vijayaditya Peddinti, Pegah Ghahrmani, Daniel Galvez}

要約
本稿では、フレーム単位の交差エントロピー事前学習を必要とせずに、ニューラルネットワーク音響モデルのシーケンス判別型学習を行う手法を提案する。我々は、ラティスフリー版の最大相互情報量(Maximum Mutual Information: MMI)基準、すなわちLF-MMIを用いる。その計算を実行可能とするために、単語言語モデルの代わりに電話n-gram言語モデルを採用する。さらに、空間的・時間的計算量を低減するため、標準フレームレートの1/3の出力フレームレートでニューラルネットワークの出力を用いて目的関数を計算する。この変更により、前向き・後向きアルゴリズムの計算をGPU上で効率的に行うことが可能となる。また、出力フレームレートの低減は、デコード時の処理速度を大幅に向上させる効果ももたらす。本研究では、学習データ量が100~2100時間にわたる5種類のLVCSR(大語彙連続話者認識)タスクに対して実験結果を提示する。LF-MMIで学習したモデルは、交差エントロピー目的関数で学習したモデルと比較して、相対的な単語誤り率(WER)を約11.5%低減し、交差エントロピーおよびsMBR(speaker-adaptive minimum Bayes risk)目的関数で学習したモデルと比較しても約8%の低減を達成した。さらに、これらのモデルに対して、単語ラティスに基づくsMBR目的関数を用いたファインチューニングを施すことで、相対的に約2.5%のさらなる誤り率低減が可能となる。