HyperAIHyperAI

Command Palette

Search for a command to run...

FANS:デバイス内SLUにおけるASRとNLUの統合

Martin Radfar Athanasios Mouchtaris Siegfried Kunzmann Ariya Rastrow

概要

音声言語理解(Spoken Language Understanding: SLU)システムは、音声入力コマンドを意味論に変換するもので、その意味は意図(intent)とスロットタグおよび値のペアとして符号化される。現在の大多数のSLUシステムは、2つのニューラルモデルを連鎖的に用いており、最初のモデルが入力音声をテキストに変換する(音声認識:ASR)、2番目のモデルがそのテキストから意図とスロットを予測する(自然言語理解:NLU)という構成である。本論文では、ASR用の音声エンコーダとマルチタスクNLUデコーダを統合した新しいエンドツーエンド型SLUモデル「FANS」を提案する。FANSは、入力音声から直接意図、スロットタグ、スロット値を推論可能であり、テキスト変換の必要を排除する。FANSは共有音声エンコーダと3つのデコーダから構成されており、そのうち2つはシーケンス・トゥ・シーケンス型デコーダであり、非空のスロットタグとスロット値を並列かつ自己回帰的に予測する。FANSのニューラルエンコーダおよびデコーダのアーキテクチャは柔軟性に富んでおり、LSTM、自己注意(self-attention)、アテンション機構の異なる組み合わせを活用することが可能である。実験の結果、独自のSLUデータセットで評価した場合、最先端のエンドツーエンド型SLUモデルと比較して、FANSはICER(意図認識誤り率)とIRER(スロット認識誤り率)をそれぞれ30%、7%相対的に低減した。また、公開のSLUデータセットで評価した場合、それぞれ0.86%、2%の絶対誤差低減が達成された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています