HH-RLHF 人类偏好数据集
*该数据集支持在线使用,点击此处跳转。
HH-RLHF 是由 Anthropic 于 2022 年发布的一个人类偏好数据集,主要由两部分组成。
数据集组成:
- 有益/无害的人类偏好数据(PM Data):
- 相关论文成果为「Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback」,旨在用人类偏好把对话模型调成既「有益」又「无害」。
- 数据集由成对的回复比较样本组成(每条含 chosen / rejected),覆盖 Helpfulness(含 base / rejection-sampled / online 三个来源)与 Harmlessness(base)两类。数据格式简单、直接,不建议直接做 SFT,适用于 RLHF/DPO 训练、奖励模型构建、响应质量对比评测等场景。
- 红队对话数据(非 PM Data):
- 相关论文成果为「Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned」,旨在研究攻击类型与危害表现、帮助降低模型有害性。
- 数据集由红队完整对话转录及元数据组成,含 transcript 、 min_harmlessness_score_transcript 、 model_type 、 rating 、 task_description 、 tags 等。数据贴近真实红队过程、标注丰富,不用于偏好建模或 SFT,适用于安全对齐分析、红队评测、危害类型归纳与策略改进等场景。
HH-RLHF.torrent
做种 1正在下载 0已完成 8总下载次数 33