17日前

エンドツーエンド音声言語理解における転移学習の探求

Subendhu Rongali, Beiye Liu, Liwei Cai, Konstantine Arkoudas, Chengwei Su, Wael Hamza
エンドツーエンド音声言語理解における転移学習の探求
要約

アレクサやSiri、Googleアシスタントなどの音声アシスタントは、通常、音声言語理解(Spoken Language Understanding)のための二段階パイプラインを採用している。まず、自動音声認識(ASR)モジュールによりユーザーの発話からテキストの文字起こしを生成し、その後、自然言語理解(NLU)モジュールで文字起こしを実行可能な仮説にマッピングする。一方、音声から直接仮説を出力するエンドツーエンド(E2E)システムは、より魅力的なアプローチとされている。こうしたE2Eシステムは、小型化され、高速化され、より最適化された性能を発揮することが示されている。しかしながら、これらは膨大な量のエンドツーエンド学習データを必要とし、さらに既存のASRおよびNLUの学習データを活用できないという課題がある。本研究では、音声からテキストへのタスク(例:ASR:音声→文字起こし、SLU:音声→仮説)と、テキストからテキストへのタスク(例:NLU:テキスト→仮説)を統合的に学習できるE2Eシステムを提案する。このモデルを「オーディオ・テキスト・オールタスク(Audio-Text All-Task, AT-AT)モデル」と命名し、単一タスクに特化したE2Eモデルと比較して、特に限られたデータ量で学習した場合に優れた性能を発揮することを実証した。この有効性は、内部の音楽データセットおよび公開データセットであるFluentSpeechとSNIPS Audioにおいて確認され、いずれにおいても最先端(SOTA)の性能を達成した。さらに、本モデルは音声入力とテキスト入力の両方を処理可能であり、ターゲットシーケンスを予測する能力を持つため、新たなドメインの音声データを一切使用せずに、テキスト→仮説データのみで学習することで、ゼロショットE2E SLU(音声→仮説)が可能となる。この能力をFacebookのTOPデータセット上で評価した結果、ゼロショットE2E性能において新たなベンチマークを設定した。今後、このTOPデータセットに使用された音声データを公開し、今後の研究に貢献する予定である。