HyperAIHyperAI

Command Palette

Search for a command to run...

Wav2Seq:擬似言語を用いた音声からテキストへのエンコーダデコーダモデルの事前学習

Felix Wu Kwangyoun Kim Shinji Watanabe Kyu Han Ryan McDonald Kilian Q. Weinberger Yoav Artzi

概要

Wav2Seqを紹介する。これは、音声データ向けのエンコーダー・デコーダー型モデルの両方の部分を、初めて自己教師学習方式で事前学習する手法である。本手法では、コンパクトな離散表現として擬似言語(pseudo language)を導入し、音声入力を擬似サブワード系列に変換する自己教師学習型の擬似音声認識タスクを定式化する。このプロセスは単独で実行可能であり、低コストな第二段階の事前学習として適用することもできる。本研究では、音声認識(ASR)、話された固有表現認識(spoken named entity recognition)、音声からテキストへの翻訳(speech-to-text translation)の3つのタスクにおいて実験を行った。エンドツーエンド型の話された固有表現認識において、新たなSOTA(最新の最良性能)を達成し、20の言語ペアにおいて音声からテキストへの翻訳タスクでも一貫した性能向上を示した。なお、他の手法が追加のテキストデータを用いて学習している場合でも、本手法は優れた性能を発揮した。さらに、音声認識(ASR)においては、エンコーダー・デコーダー型アーキテクチャがネットワーク全体の各部において事前学習の恩恵を受けられるようになり、近年の高度に最適化された手法と同等の性能を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています