HyperAIHyperAI

Command Palette

Search for a command to run...

RWTH ASR システムの LibriSpeech への適用: ハイブリッドとアテンション -- データ拡張なし

Christoph Lüscher¹, Eugen Beck¹,², Kazuki Irie¹, Markus Kitza¹, Wilfried Michel¹,², Albert Zeyer¹,², Ralf Schlüter¹, Hermann Ney¹,²

概要

私たちは、LibriSpeechタスクにおいて、標準的なハイブリッドDNN/HMMアーキテクチャを用いた最先端の自動音声認識(ASR)システムと、アテンションベースのエンコーダー-デコーダーデザインを比較します。両方のシステムアーキテクチャについて、システム開発の詳細な説明、モデル設計、事前学習スキーム、学習スケジュール、および最適化手法が提供されています。両方のハイブリッドDNN/HMMシステムとアテンションベースシステムは、音響モデリング/エンコーディングに双方向LSTMを使用しています。言語モデリングについては、LSTMとTransformerに基づくアーキテクチャを用いています。すべてのシステムはRWTHが開発したオープンソースツールキットRASRとRETURNNを使用して構築されています。著者の知る限り、完全なLibriSpeechトレーニングセットで学習した場合の結果は、現在公開されているものの中で最も優れています。これはハイブリッドDNN/HMMシステムとアテンションベースシステム双方に対して言えます。私たちの単一のハイブリッドシステムは、以前に8つの単一システムを組み合わせて得られた結果さえも上回っています。比較実験では、LibriSpeech 960時間タスクにおいて、クリーンテストセットでは相対的に15%、他のテストセットでは相対的に40%というワードエラー率(WER)での差が確認されました。さらに、LibriSpeechトレーニングコーパスの100時間サブセットを使用した実験では、ハイブリッドDNN/HMMとアテンションベースアーキテクチャ間の差がより顕著に表れています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
RWTH ASR システムの LibriSpeech への適用: ハイブリッドとアテンション -- データ拡張なし | 記事 | HyperAI超神経