3ヶ月前
QuartzNet:1次元時刻-チャネル分離型畳み込みを用いた深層自動音声認識
Samuel Kriman, Stanislav Beliaev, Boris Ginsburg, Jocelyn Huang, Oleksii Kuchaiev, Vitaly Lavrukhin, Ryan Leary, Jason Li, Yang Zhang

要約
我々は、音声認識のための新しいエンドツーエンド型ニューラル音響モデルを提案する。このモデルは、複数のブロックで構成されており、それらの間にリューズ(残差)接続が設けられている。各ブロックは、1次元時空間分離型畳み込み層、バッチ正規化層、ReLU層を含む1つ以上のモジュールから成る。モデルはCTC損失関数を用いて訓練される。提案するネットワークは、LibriSpeechおよびWall Street Journalデータセットにおいて、競合モデルすべてと比較してパラメータ数が少ないにもかかわらず、ほぼ最先端の精度を達成した。また、本モデルが新たなデータセット上で効果的にファインチューニング可能であることも示した。