CA‑1 人类偏好对齐数据集
*该数据集支持在线使用,点击此处跳转。
CA‑1,全称 Collective Alignment 1,由 OpenAI 于 2025 年发布,聚焦于人类对 AI 模型默认行为的价值判断与偏好,是一个结合模型生成内容与注释者评估的人类反馈行为数据集。
该数据集由 1,078 个 prompt 对比条目与 1,012 名注释者提供的 18,384 次评估组成,配有人口统计信息和评分理由,适用于研究群体对齐差异、指导模型行为规范与开发价值敏感奖励机制。
数据构成:
- Prompt Comparisons(对比条目):每条包含一个合成的 prompt 以及对应的 4 个候选回复(A–D),用于比较不同回复在价值偏好上的差异。
- Annotators(注释者信息):记录每位注释者的基本人口统计信息,包括年龄、性别、教育水平和所在国家,用于分析不同人群的价值偏好差异。
- Merged Comparisons–Annotators(合并对比与注释):整合了 prompt 、候选回复与注释者的评价结果,并附带注释者的背景信息,形成完整的「提示–回复–评价–人口统计」映射。