2ヶ月前
セグメンタル再帰型ニューラルネットワークを用いたエンドツーエンド音声認識
Liang Lu; Lingpeng Kong; Chris Dyer; Noah A. Smith; Steve Renals

要約
私たちは、エンドツーエンドの音響モデリングに用いられるセグメンタル再帰型ニューラルネットワーク(RNN)について研究しています。このモデルは、セグメンタル条件付き確率場(CRF)と特徴抽出に使用される再帰型ニューラルネットワークを接続しています。これまでのほとんどのCRFベースの音響モデルと比較して、外部システムによる特徴量やセグメンテーション境界の提供に依存していません。代わりに、このモデルはすべての可能なセグメンテーションを周辺化し、特徴量はセグメンタルCRFとともに訓練されたRNNから抽出されます。本質的には、このモデルは自立しており、エンドツーエンドで訓練することができます。本論文では、実際の訓練とデコーディングに関する問題点や、音声認識の文脈における訓練速度向上の方法について議論します。TIMITデータセットを用いて実験を行い、最初のデコーディングで17.3%の音素誤り率(PER)を達成しました---言語モデルを使用せずに0次CRFのみを使用した場合でも、報告されているCRFを使用した結果の中で最良のものです。