18日前
タスク認識型マルチタスク学習による音声からテキストへのタスク
{Inchul Hwang, Chanwoo Kim, Sangha Kim, Seokchan Ahn, Hyojung Han, Beomseok Lee, Nikhil Kumar Lakumarapu, Mohd Abbas Zaidi, Sathish Indurthi}
要約
一般的に、直接的な音声からテキストへの翻訳(Speech-to-text translation: ST)は、音声認識(Automatic Speech Recognition: ASR)および機械翻訳(Machine Translation: MT)のタスクと共同学習される。しかし、現在の共同学習戦略には、これらのタスク間での知識の共有を妨げる問題が存在する。本研究では、タスク固有の特徴を学習しつつ、同時に共有特徴も学習できるようにする「タスク調節ネットワーク(task modulation network)」を提案する。このアプローチにより、別途のファインチューニングステップの必要がなく、一つのモデルでこれらのすべてのタスクを実行できるようになる。提案モデルは、STタスクにおいてMuST-C英語-ドイツ語データセットで28.64のBLEUスコア、ASRタスクにおいてTEDLium v3データセットで11.61%のWER(文字誤り率)、MTタスクにおいてWMT’15英語-ドイツ語タスクで23.35のBLEUスコアを達成した。これにより、STタスクにおいて新たな最先端性能(SOTA: State-of-the-art)を達成するとともに、既存のエンドツーエンド型ASRシステムを上回る性能を実現した。