2ヶ月前

深層再帰ニューラルネットワークを用いた音声認識

Alex Graves; Abdel-rahman Mohamed; Geoffrey Hinton
深層再帰ニューラルネットワークを用いた音声認識
要約

再帰型ニューラルネットワーク(RNN)は、系列データに対する強力なモデルです。接続主義時系列分類(Connectionist Temporal Classification, CTC)などのエンドツーエンドの学習方法により、入出力のアライメントが不明な系列ラベリング問題に対してRNNを訓練することが可能になりました。これらの方法と長短期記憶(Long Short-term Memory, LSTM)RNNアーキテクチャの組み合わせは特に効果的であり、連続的な手書き文字認識において最先端の結果を達成しています。しかし、音声認識におけるRNNの性能はこれまで期待外れで、深層フィードフォワードネットワークの方が良い結果を示しています。本論文では、深層再帰型ニューラルネットワーク(\emph{deep recurrent neural networks})について調査します。これは、深層ネットワークで効果的に機能している多次元表現と、RNNが持つ長い範囲のコンテキストを柔軟に利用する能力を組み合わせたものです。適切な正則化とともにエンドツーエンドで訓練された場合、深いLSTM RNNはTIMIT音素認識ベンチマークにおいて17.7%のテストセット誤差率を達成しました。これは私たちが知る限り、最高の記録です。