
要約
サブワード単位を用いたシーケンス・トゥ・シーケンスのアテンションベースモデルは、シンプルなオープンボキャブラリのエンドツーエンド音声認識を可能にします。本研究では、これらのモデルがSwitchboard 300時間およびLibriSpeech 1000時間タスクにおいて競争力のある結果を達成できることを示しています。特に、LibriSpeechのdev-clean評価サブセットで3.54%、test-clean評価サブセットで3.82%という最先端の単語誤り率(WER)を報告しています。また、訓練開始時に高い時間短縮係数を使用し、訓練中にこれを低下させる新しい事前学習スキームを導入しました。これは収束と最終的な性能にとって重要です。一部の実験では、CTC損失関数を補助的に使用して収束を支援しています。さらに、サブワード単位で長短期記憶(LSTM)言語モデルを訓練しました。浅い融合により、言語モデルなしのアテンションベースラインに対して最大27%の相対的なWER改善を報告しています。