17日前
音声応用におけるTransformerとRNNの比較研究
Shigeki Karita, Nanxin Chen, Tomoki Hayashi, Takaaki Hori, Hirofumi Inaguma, Ziyan Jiang, Masao Someki, Nelson Enrique Yalta Soplin, Ryuichi Yamamoto, Xiaofei Wang, Shinji Watanabe, Takenori Yoshimura, Wangyou Zhang

要約
sequence-to-sequenceモデルは、エンドツーエンド音声処理分野、特に自動音声認識(ASR)、音声翻訳(ST)、テキスト音声変換(TTS)などにおいて広く利用されてきた。本論文では、ニューラル機械翻訳およびその他の自然言語処理アプリケーションにおいて最先端の性能を達成している、新たなsequence-to-sequenceモデルであるTransformerに注目している。我々は、合計15のASRベンチマーク、1つの多言語ASRベンチマーク、1つのSTベンチマーク、および2つのTTSベンチマークにおいて、Transformerと従来の再帰型ニューラルネットワーク(RNN)を実験的に比較・分析する包括的な研究を実施した。実験の結果、各タスクにおいてTransformerがRNNに対して顕著な性能向上をもたらすことが明らかになったほか、15のASRベンチマークのうち13でTransformerが驚くべき優位性を示した。これらの成果を基に、コミュニティが本研究の成果を再現できるよう、オープンソースかつ公に利用可能なデータセットを用いたKaldiスタイルの再現可能なレシピを、すべてのASR、STおよびTTSタスクについて公開する準備を進めている。