Command Palette

Search for a command to run...

Nemotron-Post-Training-Dataset-v2 后训练数据集

日期

2 个月前

大小

36.78 GB

机构

NVIDIA(英伟达)

论文链接

2508.14444

许可协议

CC BY 4.0

Nemotron-Post-Training-Dataset-v2 是英伟达于 2025 年基于既有后训练语料扩展推出的版本。该数据集将 SFT 与 RL 数据扩展到五种目标语言(西/法/德/意/日),覆盖数学、代码、 STEM(科学、技术、工程和数学)、对话等场景,用于提升模型的推理与指令跟随能力;并提供基于元数据的筛选功能与典型子集示例。该数据集服务于 Nemotron-Nano-9B-v2 系列的发布与对齐研究,属于其公开的后训练语料之一,便于用户复现实验与进一步改进。相关论文成果为「NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model」。

可筛选样本分布与元数据

  • 筛选下载:支持按类别 / 语言 / 来源模型等元数据快速过滤与下载
  • 类别与规模(Value):math(239,467);code(175,000);stem(355,000)chat(627,720)
  • 多语言覆盖:ja 、 de 、 it 、 es 、 fr
  • 生成来源:由多款大模型合成(如 DeepSeek-R1-0528 、 Qwen 2.5/3 系列等)
  • 标注形态:部分样本提供「推理开或关」两种响应;推理轨迹为英文

Nemotron-Post-Training-Dataset-v2.torrent
做种 1正在下载 0已完成 25总下载次数 76
  • Nemotron-Post-Training-Dataset-v2/
    • README.md
      1.94 KB
    • README.txt
      3.88 KB
      • data/
        • Nemotron-Post-Training-Dataset-v2.zip
          36.78 GB

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供