2ヶ月前
Deep Speech 2: 英語と中国語のエンドツーエンド音声認識
Dario Amodei; Rishita Anubhai; Eric Battenberg; Carl Case; Jared Casper; Bryan Catanzaro; Jingdong Chen; Mike Chrzanowski; Adam Coates; Greg Diamos; Erich Elsen; Jesse Engel; Linxi Fan; Christopher Fougner; Tony Han; Awni Hannun; Billy Jun; Patrick LeGresley; Libby Lin; Sharan Narang; Andrew Ng; Sherjil Ozair; Ryan Prenger; Jonathan Raiman; Sanjeev Satheesh; David Seetapun; Shubho Sengupta; Yi Wang; Zhiqian Wang; Chong Wang; Bo Xiao; Dani Yogatama; Jun Zhan; Zhenyao Zhu

要約
私たちは、エンドツーエンドの深層学習アプローチを使用して、英語と中国語(マンダリン)という全く異なる2つの言語の音声認識が可能であることを示します。この方法は、手動で設計されたコンポーネント全体をニューラルネットワークに置き換えるため、騒音環境、アクセント、異なる言語など多様な音声を処理することができます。私たちのアプローチの鍵となるのはHPC技術(High Performance Computing)の適用であり、これにより前システム比で7倍の高速化を達成しました。この効率性により、以前数週間かかった実験が数日で完了するようになりました。これにより、より優れたアーキテクチャやアルゴリズムを迅速に特定するための反復開発が可能になりました。その結果、標準データセットでのベンチマークにおいて、いくつかの場合で当社のシステムは人間作業者の転記と競合できる性能を達成しています。最後に、データセンターでのGPUを使用したバッチディスパッチ技術(Batch Dispatch)を用いることで、当社のシステムがオンライン設定において低遅延で利用者規模に対応できることを示します。これは安価な展開が可能なことを意味します。