6ヶ月前

畳み込みニューラルネットワーク

音声および音声処理

アプローチ／フレームワーク

オーディオ

Wei Han Zhengdong Zhang Yu Zhang Jiahui Yu Chung-Cheng Chiu James Qin Anmol Gulati Ruoming Pang Yonghui Wu

概要

畳み込みニューラルネットワーク（CNN）は、エンドツーエンド音声認識において有望な結果を示しているものの、依然として他の最先端手法に比べて性能で劣っている。本論文では、この性能ギャップを埋め、さらにその上を行くため、新しいCNN-RNN-transducerアーキテクチャであるContextNetを提案する。ContextNetは、squeeze-and-excitationモジュールを導入することで畳み込み層にグローバルな文脈情報を組み込む、完全畳み込み型エンコーダを特徴とする。さらに、計算量と精度の良いトレードオフを実現するための単純なスケーリング手法を提案する。広く用いられているLibriSpeechベンチマーク上で、ContextNetは外部言語モデル（LM）を使用しない場合、クリーン／ノイズありテストセットでそれぞれ2.1％／4.6％の単語誤り率（WER）を達成し、LMを用いる場合では1.9％／4.1％、パラメータ数がわずか1000万個の条件下でも2.9％／7.0％のWERを達成した。これは、以前に発表された最良のシステム（LMありで2.0％／4.6％、2000万パラメータで3.9％／11.3％）と比較して優位性を示している。また、より大規模な内部データセットにおいても、提案するContextNetモデルの優れた性能が実証されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

畳み込みニューラルネットワーク

音声および音声処理

アプローチ／フレームワーク

オーディオ

Wei Han Zhengdong Zhang Yu Zhang Jiahui Yu Chung-Cheng Chiu James Qin Anmol Gulati Ruoming Pang Yonghui Wu

概要

畳み込みニューラルネットワーク（CNN）は、エンドツーエンド音声認識において有望な結果を示しているものの、依然として他の最先端手法に比べて性能で劣っている。本論文では、この性能ギャップを埋め、さらにその上を行くため、新しいCNN-RNN-transducerアーキテクチャであるContextNetを提案する。ContextNetは、squeeze-and-excitationモジュールを導入することで畳み込み層にグローバルな文脈情報を組み込む、完全畳み込み型エンコーダを特徴とする。さらに、計算量と精度の良いトレードオフを実現するための単純なスケーリング手法を提案する。広く用いられているLibriSpeechベンチマーク上で、ContextNetは外部言語モデル（LM）を使用しない場合、クリーン／ノイズありテストセットでそれぞれ2.1％／4.6％の単語誤り率（WER）を達成し、LMを用いる場合では1.9％／4.1％、パラメータ数がわずか1000万個の条件下でも2.9％／7.0％のWERを達成した。これは、以前に発表された最良のシステム（LMありで2.0％／4.6％、2000万パラメータで3.9％／11.3％）と比較して優位性を示している。また、より大規模な内部データセットにおいても、提案するContextNetモデルの優れた性能が実証されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています