INFINITY-CHAT 真实开放式问答数据集
INFINITY-CHAT 由华盛顿大学联合卡内基梅隆大学、 Allen Institute for Artificial Intelligence 等机构于 2025 年发布,是首个面向真实世界开放式用户提问的大规模数据集。其相关论文成果 Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond) 荣获 NeurIPS 2025 Best Paper (DB track),旨在系统研究语言模型在开放式生成中的多样性、人类偏好差异以及「人工蜂群效应」等关键问题。
该数据集收录了 26,000 多条真实开放式用户提问,并提供 6 个顶级类别、 17 个子类的完善查询分类体系。数据集同时包含 70 余个语言模型的回答,以及 31,250 条人工标注(含绝对评分与成对偏好),平均每条样本由 25 名标注者评价。数据集整体由开放式问题语料、多层级分类标签、模型生成结果与大规模人类反馈四部分构成。