HyperAI超神经

HH-RLHF 是由 Anthropic 于 2022 年发布的一个人类偏好数据集，主要由两部分组成。

有益/无害的人类偏好数据（PM Data）：
- 相关论文成果为「Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback」，旨在用人类偏好把对话模型调成既「有益」又「无害」。
- 数据集由成对的回复比较样本组成（每条含 chosen / rejected），覆盖 Helpfulness（含 base / rejection-sampled / online 三个来源）与 Harmlessness（base）两类。数据格式简单、直接，不建议直接做 SFT，适用于 RLHF/DPO 训练、奖励模型构建、响应质量对比评测等场景。
红队对话数据（非 PM Data）：
- 相关论文成果为「Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned」，旨在研究攻击类型与危害表现、帮助降低模型有害性。
- 数据集由红队完整对话转录及元数据组成，含 transcript 、 min_harmlessness_score_transcript 、 model_type 、 rating 、 task_description 、 tags 等。数据贴近真实红队过程、标注丰富，不用于偏好建模或 SFT，适用于安全对齐分析、红队评测、危害类型归纳与策略改进等场景。

HH-RLHF 人类偏好数据集