2ヶ月前

RWTH ASR システムの LibriSpeech への適用: ハイブリッドとアテンション -- データ拡張なし

Christoph Lüscher; Eugen Beck; Kazuki Irie; Markus Kitza; Wilfried Michel; Albert Zeyer; Ralf Schlüter; Hermann Ney

要約

私たちは、LibriSpeechタスクにおいて、標準的なハイブリッドDNN/HMMアーキテクチャを用いた最先端の自動音声認識（ASR）システムと、アテンションベースのエンコーダー-デコーダーデザインを比較します。両方のシステムアーキテクチャについて、システム開発の詳細な説明、モデル設計、事前学習スキーム、学習スケジュール、および最適化手法が提供されています。両方のハイブリッドDNN/HMMシステムとアテンションベースシステムは、音響モデリング/エンコーディングに双方向LSTMを使用しています。言語モデリングについては、LSTMとTransformerに基づくアーキテクチャを用いています。すべてのシステムはRWTHが開発したオープンソースツールキットRASRとRETURNNを使用して構築されています。著者の知る限り、完全なLibriSpeechトレーニングセットで学習した場合の結果は、現在公開されているものの中で最も優れています。これはハイブリッドDNN/HMMシステムとアテンションベースシステム双方に対して言えます。私たちの単一のハイブリッドシステムは、以前に8つの単一システムを組み合わせて得られた結果さえも上回っています。比較実験では、LibriSpeech 960時間タスクにおいて、クリーンテストセットでは相対的に15%、他のテストセットでは相対的に40%というワードエラー率（WER）での差が確認されました。さらに、LibriSpeechトレーニングコーパスの100時間サブセットを使用した実験では、ハイブリッドDNN/HMMとアテンションベースアーキテクチャ間の差がより顕著に表れています。