HyperAIHyperAI

Command Palette

Search for a command to run...

タスク認識型マルチタスク学習による音声からテキストへのタスク

Inchul Hwang Chanwoo Kim Sangha Kim Seokchan Ahn Hyojung Han Beomseok Lee Nikhil Kumar Lakumarapu Mohd Abbas Zaidi Sathish Indurthi

概要

一般的に、直接的な音声からテキストへの翻訳(Speech-to-text translation: ST)は、音声認識(Automatic Speech Recognition: ASR)および機械翻訳(Machine Translation: MT)のタスクと共同学習される。しかし、現在の共同学習戦略には、これらのタスク間での知識の共有を妨げる問題が存在する。本研究では、タスク固有の特徴を学習しつつ、同時に共有特徴も学習できるようにする「タスク調節ネットワーク(task modulation network)」を提案する。このアプローチにより、別途のファインチューニングステップの必要がなく、一つのモデルでこれらのすべてのタスクを実行できるようになる。提案モデルは、STタスクにおいてMuST-C英語-ドイツ語データセットで28.64のBLEUスコア、ASRタスクにおいてTEDLium v3データセットで11.61%のWER(文字誤り率)、MTタスクにおいてWMT’15英語-ドイツ語タスクで23.35のBLEUスコアを達成した。これにより、STタスクにおいて新たな最先端性能(SOTA: State-of-the-art)を達成するとともに、既存のエンドツーエンド型ASRシステムを上回る性能を実現した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています