2ヶ月前
ジャスパー:エンドツーエンドの畳み込みニューラル音響モデル
Jason Li; Vitaly Lavrukhin; Boris Ginsburg; Ryan Leary; Oleksii Kuchaiev; Jonathan M. Cohen; Huyen Nguyen; Ravi Teja Gadde

要約
本論文では、外部の訓練データを使用せずに、エンドツーエンド音声認識モデルにおけるLibriSpeechの最先端の結果を報告します。我々のモデルであるJasperは、1D畳み込み、バッチ正規化、ReLU、ドロップアウト、および残差接続のみを使用しています。訓練の改善のために、さらに新しい層ごとの最適化手法であるNovoGradを導入しました。実験を通じて、提案された深層アーキテクチャがより複雑な選択肢と同等かそれ以上の性能を示すことを示しています。最も深いJasper変種は54層の畳み込みを使用しており、このアーキテクチャにより、外部ニューラル言語モデルを使用したビームサーチデコーダで2.95%のWER(単語誤り率)を達成し、貪欲デコーダでは3.86%のWERを達成しました。また、Wall Street JournalおよびHub5'00会話評価データセットでも競争力のある結果を得ています。