INFINITY-CHAT リアルオープン質問応答データセット
INFINITY-CHATは、ワシントン大学がカーネギーメロン大学、アレン人工知能研究所、その他の機関と共同で2025年に公開した、実世界のユーザーからの自由回答形式の質問に対応した初の大規模データセットです。関連研究論文は… 人工ハイブマインド:言語モデルのオープンエンドな均質性(そしてそれ以上) NeurIPS 2025 最優秀論文賞 (DB トラック) を受賞したこの論文は、オープンエンド生成における言語モデルの多様性、人間の好みの違い、「人工群集効果」などの重要な問題を体系的に研究することを目的としています。
このデータセットには、26,000件を超える実際の自由回答形式のユーザー質問が含まれており、6つのトップレベルカテゴリと17のサブカテゴリを備えた包括的なクエリ分類システムを提供します。また、70以上の言語モデルからの回答と、31,250件の人間によるアノテーション(絶対スコアとペアワイズ選好を含む)が含まれており、各サンプルは平均25人のアノテーターによって評価されています。データセットは、自由回答形式の質問コーパス、多階層分類ラベル、モデル生成結果、そして大規模な人間によるフィードバックという4つの主要部分で構成されています。