2ヶ月前

Deep Speech: エンドツーエンド音声認識のスケーリングアップ

Awni Hannun; Carl Case; Jared Casper; Bryan Catanzaro; Greg Diamos; Erich Elsen; Ryan Prenger; Sanjeev Satheesh; Shubho Sengupta; Adam Coates; Andrew Y. Ng
Deep Speech: エンドツーエンド音声認識のスケーリングアップ
要約

我々は、エンドツーエンドの深層学習を使用して開発された最先端の音声認識システムを紹介します。当社のアーキテクチャは、手間暇かけて設計された処理パイプラインに依存する従来の音声認識システムと比べて、著しく単純化されています。これらの従来のシステムは、騒音環境下での使用時に性能が低下する傾向があります。一方、当社のシステムは背景ノイズ、残響、話者変動をモデル化するための手作業で設計されたコンポーネントを必要とせず、そのような影響に対して堅牢な関数を直接学習します。また、音素辞書も必要とせず、「音素」という概念さえも用いません。当社アプローチの鍵となる要素は、複数のGPUを使用し、大量かつ多様な訓練データを効率的に取得できる一連の新規データ合成技術を用いた最適化されたRNN(再帰型ニューラルネットワーク)訓練システムです。当社の「Deep Speech」と呼ばれるシステムは、広く研究されているSwitchboard Hub5'00において既存の結果を超える性能を示し、フルテストセットで16.0%の誤り率を達成しました。さらに、「Deep Speech」は一般的に使用されている最先端の商業的な音声認識システムよりも困難な騒音環境下での処理能力が優れています。

Deep Speech: エンドツーエンド音声認識のスケーリングアップ | 最新論文 | HyperAI超神経