HyperAIHyperAI

Command Palette

Search for a command to run...

音声応用におけるTransformerとRNNの比較研究

概要

sequence-to-sequenceモデルは、エンドツーエンド音声処理分野、特に自動音声認識(ASR)、音声翻訳(ST)、テキスト音声変換(TTS)などにおいて広く利用されてきた。本論文では、ニューラル機械翻訳およびその他の自然言語処理アプリケーションにおいて最先端の性能を達成している、新たなsequence-to-sequenceモデルであるTransformerに注目している。我々は、合計15のASRベンチマーク、1つの多言語ASRベンチマーク、1つのSTベンチマーク、および2つのTTSベンチマークにおいて、Transformerと従来の再帰型ニューラルネットワーク(RNN)を実験的に比較・分析する包括的な研究を実施した。実験の結果、各タスクにおいてTransformerがRNNに対して顕著な性能向上をもたらすことが明らかになったほか、15のASRベンチマークのうち13でTransformerが驚くべき優位性を示した。これらの成果を基に、コミュニティが本研究の成果を再現できるよう、オープンソースかつ公に利用可能なデータセットを用いたKaldiスタイルの再現可能なレシピを、すべてのASR、STおよびTTSタスクについて公開する準備を進めている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
音声応用におけるTransformerとRNNの比較研究 | 記事 | HyperAI超神経