
要約
最近、アテンションベースのエンコーダー-デコーダーニューラルネットワークモデルは、機械翻訳と音声認識において有望な結果を示しています。本研究では、これらのモデルを用いて、多くの音声理解および対話システムにとって重要なステップであるジョイントインテント検出とスロットフィリングのためのアテンションベースのニューラルネットワークモデルを提案します。機械翻訳や音声認識とは異なり、スロットフィリングではアライメントが明示的です。このアライメント情報をエンコーダー-デコーダーフレームワークに組み込むための異なる戦略を探求します。エンコーダー-デコーダーモデルのアテンション機構から学び、さらにアライメントに基づくRNNモデルにアテンションを導入することを提案します。このようなアテンションは、インテント分類とスロットラベル予測に追加情報を提供します。当社の独立したタスクモデルは、ベンチマークATISタスクにおいて最先端のインテント検出エラー率とスロットフィリングF1スコアを達成しています。また、ジョイントトレーニングモデルは独立したタスクモデルに対して、インテント検出で0.56%(絶対値)(23.8%相対値)のエラー削減と、スロットフィリングで0.23%(絶対値)の向上を達成しています。