HyperAIHyperAI

Command Palette

Search for a command to run...

ジャスパー:エンドツーエンドの畳み込みニューラル音響モデル

Jason Li Vitaly Lavrukhin Boris Ginsburg Ryan Leary Oleksii Kuchaiev Jonathan M. Cohen Huyen Nguyen Ravi Teja Gadde

概要

本論文では、外部の訓練データを使用せずに、エンドツーエンド音声認識モデルにおけるLibriSpeechの最先端の結果を報告します。我々のモデルであるJasperは、1D畳み込み、バッチ正規化、ReLU、ドロップアウト、および残差接続のみを使用しています。訓練の改善のために、さらに新しい層ごとの最適化手法であるNovoGradを導入しました。実験を通じて、提案された深層アーキテクチャがより複雑な選択肢と同等かそれ以上の性能を示すことを示しています。最も深いJasper変種は54層の畳み込みを使用しており、このアーキテクチャにより、外部ニューラル言語モデルを使用したビームサーチデコーダで2.95%のWER(単語誤り率)を達成し、貪欲デコーダでは3.86%のWERを達成しました。また、Wall Street JournalおよびHub5'00会話評価データセットでも競争力のある結果を得ています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています