17日前
Single-headed attention を用いたシーケンス・トゥ・シーケンスモデルによる Switchboard における最先端の結果
Zoltán Tüske, George Saon, Kartik Audhkhasi, Brian Kingsbury

要約
一般的に、直接的なシーケンス・トゥ・シーケンス(seq2seq)音声認識モデルがハイブリッドモデルと同等の性能を発揮するのは、少なくとも1000時間以上のデータを用いた学習が可能な場合に限ると考えられている。本論文では、単一ヘッドのアテンションとLSTMをベースとするモデルを用いて、Switchboard-300データセット上で最先端の認識性能を達成できることを示す。発話間言語モデルを用いた単一パスの話者非依存システムは、Hub5'00のSwitchboardおよびCallHomeサブセットにおいて、発音辞書を用いずにそれぞれ6.4%および12.5%の単語誤り率(WER)を達成した。この水準の性能を実現するには、慎重な正則化およびデータ拡張が不可欠であるが、Switchboard-2000を用いた実験から明らかになったのは、何よりもデータ量の増加が最も効果的であるということである。全体として、さまざまな正則化手法とシンプルながら十分に大きなモデルの組み合わせにより、外部データリソースを一切使用せずにSWB-2000を用いた場合に、SwitchboardおよびCallHomeセットでそれぞれ4.7%および7.8%のWERという、新たな最先端の性能が達成された。