
要約
自動音声認識(ASR)における音響モデリングのための新しい深層再帰ニューラルネットワーク(RNN)モデルを提案します。当該貢献をTC-DNN-BLSTM-DNNモデルと呼びます。このモデルは、時間畳み込み(TC)と深層ニューラルネットワーク(DNN)を組み合わせ、その後双方向長短期記憶(BLSTM)を経て、最終的にDNNを使用しています。最初のDNNは、当モデルの特徴量処理装置として機能し、BLSTMはシーケンス音響信号から文脈を生成し、最後のDNNはその文脈を取り入れて音響状態の事後確率をモデル化します。Wall Street Journal(WSJ)eval92タスクにおいて3.47%の単語誤り率(WER)を達成しており、ベースラインDNNモデルに対して8%以上の相対的な改善が見られます。