
要約
意図検出とスロットフィリングは、音声言語理解(SLU)システムを構築するための2つの主要なタスクです。これらのタスクにおいて、複数の深層学習ベースのモデルが良好な結果を示しています。最も効果的なアルゴリズムは、シーケンス・ツー・シーケンスモデル(または「エンコーダー-デコーダー」モデル)の構造に基づいており、意図と意味タグを別々のモデルまたは統合モデルを使用して生成します。しかし、これまでの多くの研究では、意図検出とスロットフィリングを2つの独立した並行タスクとして扱うか、シーケンス・ツー・シーケンスモデルを使用して両方の意味タグと意図を生成する方法が採用されています。これらのアプローチは、2つのタスクを1つの(統合された)ニューラルネットワークベースのモデル(エンコーダー-デコーダー構造を含む)でモデリングするため、相互影響を利用しきれていない可能性があります。本論文では、相互影響を考慮し、2つの相関した双方向LSTM(BLSTM)を使用して意図検出とスロットフィリングの両方のタスクを統合的に実行する新しいバイモードベースRNNセマンティックフレーム解析ネットワーク構造を設計しました。提案するバイモード構造にデコーダーを組み込むことで、ベンチマークデータATISにおいて最新の結果を達成し、約0.5%の意図精度向上と0.9%のスロットフィリング精度向上が得られました。