このデータ セットには、検索ベースのチャットボットのトレーニング データ セット、開発セット、およびテスト セットが含まれます。テスト データには 1,000 の会話コンテキストが含まれており、研究者はコンテキストごとに 10 個の応答を候補として作成しました。研究者らは、候補者が会議に適切に応答したか、つまり文脈を考慮したメッセージに対する自然な応答であるかどうかを判断するために 3 人の注釈者を採用しました。各ペアには 3 つのラベルが付けられ、ほとんどのラベルが最終的なものとみなされます。