17日前
ContextNet:グローバルなコンテキストを用いたコンボリューショナルニューラルネットワークの自動音声認識への応用における改善
Wei Han, Zhengdong Zhang, Yu Zhang, Jiahui Yu, Chung-Cheng Chiu, James Qin, Anmol Gulati, Ruoming Pang, Yonghui Wu

要約
畳み込みニューラルネットワーク(CNN)は、エンドツーエンド音声認識において有望な結果を示しているものの、依然として他の最先端手法に比べて性能で劣っている。本論文では、この性能ギャップを埋め、さらにその上を行くため、新しいCNN-RNN-transducerアーキテクチャであるContextNetを提案する。ContextNetは、squeeze-and-excitationモジュールを導入することで畳み込み層にグローバルな文脈情報を組み込む、完全畳み込み型エンコーダを特徴とする。さらに、計算量と精度の良いトレードオフを実現するための単純なスケーリング手法を提案する。広く用いられているLibriSpeechベンチマーク上で、ContextNetは外部言語モデル(LM)を使用しない場合、クリーン/ノイズありテストセットでそれぞれ2.1%/4.6%の単語誤り率(WER)を達成し、LMを用いる場合では1.9%/4.1%、パラメータ数がわずか1000万個の条件下でも2.9%/7.0%のWERを達成した。これは、以前に発表された最良のシステム(LMありで2.0%/4.6%、2000万パラメータで3.9%/11.3%)と比較して優位性を示している。また、より大規模な内部データセットにおいても、提案するContextNetモデルの優れた性能が実証されている。