Command Palette
Search for a command to run...
音声応用におけるTransformerとRNNの比較研究
音声応用におけるTransformerとRNNの比較研究
概要
sequence-to-sequenceモデルは、エンドツーエンド音声処理分野、特に自動音声認識(ASR)、音声翻訳(ST)、テキスト音声変換(TTS)などにおいて広く利用されてきた。本論文では、ニューラル機械翻訳およびその他の自然言語処理アプリケーションにおいて最先端の性能を達成している、新たなsequence-to-sequenceモデルであるTransformerに注目している。我々は、合計15のASRベンチマーク、1つの多言語ASRベンチマーク、1つのSTベンチマーク、および2つのTTSベンチマークにおいて、Transformerと従来の再帰型ニューラルネットワーク(RNN)を実験的に比較・分析する包括的な研究を実施した。実験の結果、各タスクにおいてTransformerがRNNに対して顕著な性能向上をもたらすことが明らかになったほか、15のASRベンチマークのうち13でTransformerが驚くべき優位性を示した。これらの成果を基に、コミュニティが本研究の成果を再現できるよう、オープンソースかつ公に利用可能なデータセットを用いたKaldiスタイルの再現可能なレシピを、すべてのASR、STおよびTTSタスクについて公開する準備を進めている。