
要約
私たちは、カナダ統計局で働くエージェントと公開データテーブルを求めるオンラインユーザーとの間で行われた19,379回の会話から構成されるStatCanダイアログデータセットを紹介します。これらの会話は本物の意図に基づいており、英語またはフランス語で行われ、エージェントが5000以上の複雑なデータテーブルのいずれかを検索することに至ります。このデータセットに基づき、以下の2つのタスクを提案します:(1) 継続中の会話に基づいた関連テーブルの自動検索、および (2) 各ターンでの適切なエージェント応答の自動生成です。私たちは各タスクの難易度を強力なベースラインを確立することで調査しました。時系列データ分割での実験結果から、すべてのモデルが将来の会話への汎化に苦労していることが明らかになりました。バリデーションセットからテストセットへ移行する際に、両方のタスクにおいて性能が大幅に低下することが観察されました。さらに、応答生成モデルがテーブルを返すべきタイミングを決定するのが困難であることもわかりました。これらのタスクが既存のモデルにとって大きな挑戦であることを考慮し、コミュニティに対して私たちのタスク向けのモデルを開発することを奨励します。これらのモデルは直接利用可能であり、知識労働者がライブチャットユーザーのために関連するテーブルを見つけるのに役立ちます。