HyperAIHyperAI

Command Palette

Search for a command to run...

音声認識のためのエンドツーエンド注意モデルの訓練改善

Albert Zeyer Kazuki Irie Ralf Schlüter Hermann Ney

概要

サブワード単位を用いたシーケンス・トゥ・シーケンスのアテンションベースモデルは、シンプルなオープンボキャブラリのエンドツーエンド音声認識を可能にします。本研究では、これらのモデルがSwitchboard 300時間およびLibriSpeech 1000時間タスクにおいて競争力のある結果を達成できることを示しています。特に、LibriSpeechのdev-clean評価サブセットで3.54%、test-clean評価サブセットで3.82%という最先端の単語誤り率(WER)を報告しています。また、訓練開始時に高い時間短縮係数を使用し、訓練中にこれを低下させる新しい事前学習スキームを導入しました。これは収束と最終的な性能にとって重要です。一部の実験では、CTC損失関数を補助的に使用して収束を支援しています。さらに、サブワード単位で長短期記憶(LSTM)言語モデルを訓練しました。浅い融合により、言語モデルなしのアテンションベースラインに対して最大27%の相対的なWER改善を報告しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています