HH-RLHF 人类偏好数据集

日期

1 个月前

大小

90.35 MB

机构

Anthropic

发布地址

huggingface.co

论文链接

2209.07858

许可协议

MIT

*该数据集支持在线使用,点击此处跳转

HH-RLHF 是由 Anthropic 于 2022 年发布的一个人类偏好数据集,主要由两部分组成。

数据集组成:

  • 有益/无害的人类偏好数据(PM Data):
    • 相关论文成果为「Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback」,旨在用人类偏好把对话模型调成既「有益」又「无害」。
    • 数据集由成对的回复比较样本组成(每条含 chosen / rejected),覆盖 Helpfulness(含 base / rejection-sampled / online 三个来源)与 Harmlessness(base)两类。数据格式简单、直接,不建议直接做 SFT,适用于 RLHF/DPO 训练、奖励模型构建、响应质量对比评测等场景。
  • 红队对话数据(非 PM Data):
    • 相关论文成果为「Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned」,旨在研究攻击类型与危害表现、帮助降低模型有害性。
    • 数据集由红队完整对话转录及元数据组成,含 transcript 、 min_harmlessness_score_transcript 、 model_type 、 rating 、 task_description 、 tags 等。数据贴近真实红队过程、标注丰富,不用于偏好建模或 SFT,适用于安全对齐分析、红队评测、危害类型归纳与策略改进等场景。

HH-RLHF.torrent
做种 1正在下载 0已完成 8总下载次数 33
  • HH-RLHF/
    • README.md
      1.98 KB
    • README.txt
      3.96 KB
      • data/
        • HH-RLHF.zip
          90.35 MB