
要約
最近の文献では、「エンドツーエンド」音声システムは、シーケンス・トゥ・シーケンス方式で訓練された文字ベースの音響モデルを指すことが多い。これは再帰型モデルや構造化出力学習アプローチ(CTCなど)を用いて行われる。伝統的な音素(またはセンオン)ベースの手法とは対照的に、これらの「エンドツーエンド」手法は単語発音モデリングの必要性を軽減し、訓練時に「強制アライメント」ステップを必要としない。しかし、音素ベースの手法は依然として古典的なベンチマークにおいて最先端の性能を示している。本論文では、ConvNet音響モデルを活用した文字ベースの音声認識システムを提案する。ConvNetの主要な要素はゲーテッド線形ユニットと高ドロップアウトである。このConvNetは、オーディオシーケンスを対応する文字転写にマッピングするために訓練される。訓練方法としては、従来のCTCアプローチまたは最近提唱されたASG(Adaptive Sequence Generation)を使用することができる。推論時にはシンプルなデコーダーと組み合わせることで、我々のシステムはWSJデータセットにおいて既存の最良の文字ベースシステムと同等の性能(単語誤り率)を達成し、LibriSpeechデータセットでもほぼ最先端の性能を示している。