HyperAI超神经

* 该数据集支持在线使用，点击此处跳转。

HelpSteer2 是一个由英伟达和 Scale AI 于 2024 年合作创建的开源数据集，旨在训练能够指导大型语言模型 (LLMs) 生成符合人类偏好的高质量回答的奖励模型，相关论文成果为「HelpSteer2: Open-source dataset for training top-performing reward models」。它是在 HelpSteer 数据集的基础上进行的更新，以适应当前更强大的 LLMs 。 HelpSteer2 包含约一万对回答，尽管数量上比现有的偏好数据集少一个数量级，但它在训练奖励模型方面非常高效。

该数据集的收集过程包括从 ShareGPT 平台获取提示，并使用内部强大的基础模型生成回答。回答的注释过程要求至少三名注释者对每个回答进行注释，以提高注释质量。 HelpSteer2 的统计数据显示，与 HelpSteer 数据集相比，模型回答在有用性、正确性、连贯性、复杂性和冗长性方面的得分更高。

HelpSteer2 数据集在训练奖励模型方面非常有效。例如，使用 HelpSteer2 训练的 Llama 3 70B 模型在 Reward-Bench 的主要数据集上取得了 92.0% 的得分，超过了截至 2024 年 6 月 12 日列出的所有公开和专有模型。此外，研究团队还提出了 SteerLM 2.0 模型对齐方法，可以有效地利用奖励模型预测的丰富多属性评分。

HelpSteer2 人类偏好对齐数据集

* 该数据集支持在线使用，点击此处跳转。