
要約
発話言語理解における連合的複数意図検出(Intent Detection, ID)とスロットフィリング(Slot Filling, SF)は、重要な課題である。発話内のスロットが複数の意図に関連する可能性があるため、既存の多くの方針は、意図とスロットの関係を捉えるためにタスク固有の構成要素を活用している。しかし、こうしたカスタマイズされたネットワークは、タスク間の共通性をモデル化する能力を制限し、より広範な応用への汎化性能を低下させる要因となっている。この問題に対処するため、本研究では、プロンプトベースの枠組みに基づく統一的生成フレームワーク(Unified Generative framework, UGEN)を提案する。本フレームワークでは、タスクを質問応答問題として定式化する。具体的には、5種類のテンプレートを設計し、それぞれが指示的プロンプトとして機能する。各テンプレートには、UGENがパラダイムを理解するための駆動力となる質問、候補となる意図またはスロットを列挙する選択肢、および元の発話文を示す文脈が含まれる。これらの指示的プロンプトを通じて、UGENは意図、スロット、およびそれらの潜在的な相関関係を適切に理解できるように導かれる。2つの代表的な複数意図ベンチマークデータセットにおける実験結果から、UGENは全データ条件下で新たなSOTA(State-of-the-Art)性能を達成し、5ショット(28.1%向上)および10ショット(23%向上)の設定においても、従来手法を大幅に上回ることが確認された。これにより、UGENの堅牢性と有効性が実証された。