要約
対話型検索は、対話研究および情報検索(IR)の分野において注目されるテーマとなってきているが、実質的な進展は入手可能なデータセットの規模および品質の制限によって阻害されてきた。この根本的な課題に対処するため、複数の領域およびタスクにわたる人間同士のロールプレイ対話から構成される、完全にアノテーションが施されたマルチモーダル・マルチドメイン対話データセット(MMConv)を提案する。本研究の貢献は二つある。第一に、ユーザーとエージェント間のタスク指向型マルチモーダル対話に加えて、対話信念状態(dialogue belief states)および対話行動(dialogue acts)を完全にアノテーション済みとしている。さらに重要なのは、現実のユーザー環境を想定したマルチモーダル対話型検索を実施できる相対的に包括的な環境を構築した点である。この環境には、構造化された会場データベース、アノテーション済み画像リポジトリ、およびクラウドソーシングによる知識データベースが含まれる。また、データ収集プロセスの詳細な説明とともに、データ構造の概要および分析結果も提供する。第二に、対話状態追跡(dialogue state tracking)、対話型推薦(conversational recommendation)、応答生成(response generation)のためのベンチマーク結果を報告するとともに、複数タスクを統合的に処理可能な統一モデルの提案を行う。これらのタスクに対して最先端の手法をそれぞれ適用することで、本データセットの有用性を示し、現在の手法の限界を議論し、今後の研究のベースラインを設定する。