17日前

Wav2Seq：擬似言語を用いた音声からテキストへのエンコーダデコーダモデルの事前学習

Felix Wu, Kwangyoun Kim, Shinji Watanabe, Kyu Han, Ryan McDonald, Kilian Q. Weinberger, Yoav Artzi

要約

Wav2Seqを紹介する。これは、音声データ向けのエンコーダー・デコーダー型モデルの両方の部分を、初めて自己教師学習方式で事前学習する手法である。本手法では、コンパクトな離散表現として擬似言語（pseudo language）を導入し、音声入力を擬似サブワード系列に変換する自己教師学習型の擬似音声認識タスクを定式化する。このプロセスは単独で実行可能であり、低コストな第二段階の事前学習として適用することもできる。本研究では、音声認識（ASR）、話された固有表現認識（spoken named entity recognition）、音声からテキストへの翻訳（speech-to-text translation）の3つのタスクにおいて実験を行った。エンドツーエンド型の話された固有表現認識において、新たなSOTA（最新の最良性能）を達成し、20の言語ペアにおいて音声からテキストへの翻訳タスクでも一貫した性能向上を示した。なお、他の手法が追加のテキストデータを用いて学習している場合でも、本手法は優れた性能を発揮した。さらに、音声認識（ASR）においては、エンコーダー・デコーダー型アーキテクチャがネットワーク全体の各部において事前学習の恩恵を受けられるようになり、近年の高度に最適化された手法と同等の性能を達成した。