HyperAIHyperAI

Command Palette

Search for a command to run...

控制台

日期

1 年前

大小

38.74 MB

组织

NVIDIA(英伟达)

论文 URL

huggingface.co

许可证

CC BY 4.0

* 该数据集支持在线使用,点击此处跳转

HelpSteer2 是一个由英伟达和 Scale AI 于 2024 年合作创建的开源数据集,旨在训练能够指导大型语言模型 (LLMs) 生成符合人类偏好的高质量回答的奖励模型,相关论文成果为「HelpSteer2: Open-source dataset for training top-performing reward models」。它是在 HelpSteer 数据集的基础上进行的更新,以适应当前更强大的 LLMs 。 HelpSteer2 包含约一万对回答,尽管数量上比现有的偏好数据集少一个数量级,但它在训练奖励模型方面非常高效。

该数据集的收集过程包括从 ShareGPT 平台获取提示,并使用内部强大的基础模型生成回答。回答的注释过程要求至少三名注释者对每个回答进行注释,以提高注释质量。 HelpSteer2 的统计数据显示,与 HelpSteer 数据集相比,模型回答在有用性、正确性、连贯性、复杂性和冗长性方面的得分更高。

HelpSteer2 数据集在训练奖励模型方面非常有效。例如,使用 HelpSteer2 训练的 Llama 3 70B 模型在 Reward-Bench 的主要数据集上取得了 92.0% 的得分,超过了截至 2024 年 6 月 12 日列出的所有公开和专有模型。此外,研究团队还提出了 SteerLM 2.0 模型对齐方法,可以有效地利用奖励模型预测的丰富多属性评分。

HelpSteer2.torrent
播种 2下载中 0已完成 197总下载量 410
  • HelpSteer2/
    • README.md
      2.08 KB
    • README.txt
      4.15 KB
      • data/
        • HelpSteer2.zip
          38.74 MB

用 AI 构建 AI

从构思到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格加速您的 AI 开发。

AI 协同编码
可直接使用的 GPU
最佳价格

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供