2ヶ月前

Light Gated Recurrent Units for Speech Recognition 光制御再帰単位の音声認識への応用

Mirco Ravanelli; Philemon Brakel; Maurizio Omologo; Yoshua Bengio
Light Gated Recurrent Units for Speech Recognition
光制御再帰単位の音声認識への応用
要約

最近の深層学習の進歩により直接恩恵を受けた分野の一つが自動音声認識(Automatic Speech Recognition, ASR)です。しかし、過去数十年間の大きな成果にもかかわらず、特に著しいノイズや残響がある困難な環境下での自然で堅牢な人間と機械の音声相互作用は依然として実現が難しい状況にあります。堅牢性を向上させるために、現代の音声認識システムでは、大規模な時間コンテキストや長期的な音声変調を自然に活用できる再帰型ニューラルネットワーク(Recurrent Neural Networks, RNNs)に基づく音響モデルをしばしば使用しています。したがって、RNNが音声信号処理における効果性を改善するための適切な技術に関する研究を続けることは非常に重要です。本論文では、最も人気のあるRNNモデルであるゲート付き再帰型ユニット(Gated Recurrent Units, GRUs)を見直し、ASRに非常に効果的な簡素化されたアーキテクチャを提案します。本研究の貢献は二つあります:第一に、リセットゲートがアップデートゲートと著しく冗長であることを示す分析を行い、その結果としてGRU設計から前者を取り除き、より効率的かつコンパクトなシングルゲートモデルを提案します。第二に、双曲線正接関数(hyperbolic tangent)をReLU活性化関数に置き換えることを提案します。この変更はバッチ正規化と相性が良く、数値的な問題なく長期依存関係を学習するのに役立つ可能性があります。実験結果は、提案されたアーキテクチャである軽量GRU(Light GRU, Li-GRU)が標準的なGRUに対してエポックごとの訓練時間を30%以上削減するとともに、異なるタスク、入力特徴量、ノイジーコンディションにおいても一貫して認識精度を向上させることを示しています。また、標準的なDNN-HMM音声認識システムから端対端CTCモデルまで異なるASRパラダイムにおいても同様の改善が見られました。