17日前

FANS：デバイス内SLUにおけるASRとNLUの統合

Martin Radfar, Athanasios Mouchtaris, Siegfried Kunzmann, Ariya Rastrow

要約

音声言語理解（Spoken Language Understanding: SLU）システムは、音声入力コマンドを意味論に変換するもので、その意味は意図（intent）とスロットタグおよび値のペアとして符号化される。現在の大多数のSLUシステムは、2つのニューラルモデルを連鎖的に用いており、最初のモデルが入力音声をテキストに変換する（音声認識：ASR）、2番目のモデルがそのテキストから意図とスロットを予測する（自然言語理解：NLU）という構成である。本論文では、ASR用の音声エンコーダとマルチタスクNLUデコーダを統合した新しいエンドツーエンド型SLUモデル「FANS」を提案する。FANSは、入力音声から直接意図、スロットタグ、スロット値を推論可能であり、テキスト変換の必要を排除する。FANSは共有音声エンコーダと3つのデコーダから構成されており、そのうち2つはシーケンス・トゥ・シーケンス型デコーダであり、非空のスロットタグとスロット値を並列かつ自己回帰的に予測する。FANSのニューラルエンコーダおよびデコーダのアーキテクチャは柔軟性に富んでおり、LSTM、自己注意（self-attention）、アテンション機構の異なる組み合わせを活用することが可能である。実験の結果、独自のSLUデータセットで評価した場合、最先端のエンドツーエンド型SLUモデルと比較して、FANSはICER（意図認識誤り率）とIRER（スロット認識誤り率）をそれぞれ30%、7%相対的に低減した。また、公開のSLUデータセットで評価した場合、それぞれ0.86%、2%の絶対誤差低減が達成された。