17日前

エンドツーエンド音声言語理解:汎用音声アシスタント向け

Michael Saxon, Samridhi Choudhary, Joseph P. McKenna, Athanasios Mouchtaris
エンドツーエンド音声言語理解:汎用音声アシスタント向け
要約

エンドツーエンド(E2E)音声言語理解(SLU)システムは、単一のモデルを用いて音声から直接発話の意味構造を予測する。従来のこの分野の研究は、固定ドメインにおける特定タスクに焦点を当てており、出力される意味構造は事前に仮定されており、入力音声の複雑さも限定的であった。本研究では、商用音声アシスタント(VA)における汎用的SLUを実現するためのE2Eモデルの開発手法を提示する。我々は、ASR(音声認識)およびNLU(自然言語理解)の両レベルで事前学習が可能な、完全微分可能なTransformerベースの階層型システムを提案する。このモデルは、音声認識と意味分類の両方の損失関数に基づいて微調整され、多様な意図(intent)と引数(argument)の組み合わせに対応できる。その結果、43%の精度向上を達成した複雑な内部汎用VAデータセットにおいて、ベースラインを大きく上回る性能を発揮した。また、広く用いられるFluent Speech Commandsデータセットにおいても、99%の精度という基準を満たした。さらに、訓練データに登場しなかったスロット引数のみを含む困難なテストセットにおいてもモデルを評価したところ、約20%の精度向上が確認され、本手法が本格的なVA環境において極めて厳しい条件下でも有効であることを示した。