
要約
音声言語理解(SLU)における対話システムのための話者意図検出と意味スロット充填は、重要な二つのタスクです。本論文では、これらのタスクを統合して実行する再帰型ニューラルネットワーク(RNN)モデルについて説明します。このニューラルネットワークモデルは、書き起こされた発話の単語が入力されるたびに意図推定を更新し、それを結合モデルでの文脈特徴として使用します。言語モデルとオンラインSLUモデルの評価は、ATISベンチマークデータセットで行われました。言語モデリングタスクにおいて、我々の結合モデルは独立学習した言語モデルと比較してパープレキシティで11.8%の相対的な改善を達成しました。SLUタスクにおいては、意図検出エラーレートで22.3%の性能向上を示しましたが、意味スロット充填のF1スコアには若干の低下が見られました。また、ノイジーな音声入力を含む現実的なASR設定下でも、結合モデルは優れた性能を示しています。