HyperAIHyperAI

Command Palette

Search for a command to run...

Nemotron-Post-Training-Dataset-v2 后训练数据集

Date

4 个月前

Size

36.78 GB

Organization

NVIDIA(英伟达)

Paper URL

2508.14444

License

CC BY 4.0

Nemotron-Post-Training-Dataset-v2 是英伟达于 2025 年基于既有后训练语料扩展推出的版本。该数据集将 SFT 与 RL 数据扩展到五种目标语言(西/法/德/意/日),覆盖数学、代码、 STEM(科学、技术、工程和数学)、对话等场景,用于提升模型的推理与指令跟随能力;并提供基于元数据的筛选功能与典型子集示例。该数据集服务于 Nemotron-Nano-9B-v2 系列的发布与对齐研究,属于其公开的后训练语料之一,便于用户复现实验与进一步改进。相关论文成果为「NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model」。

可筛选样本分布与元数据

  • 筛选下载:支持按类别 / 语言 / 来源模型等元数据快速过滤与下载
  • 类别与规模(Value):math(239,467);code(175,000);stem(355,000)chat(627,720)
  • 多语言覆盖:ja 、 de 、 it 、 es 、 fr
  • 生成来源:由多款大模型合成(如 DeepSeek-R1-0528 、 Qwen 2.5/3 系列等)
  • 标注形态:部分样本提供「推理开或关」两种响应;推理轨迹为英文

Nemotron-Post-Training-Dataset-v2.torrent
Seeding 1Downloading 0Completed 31Total Downloads 117
  • Nemotron-Post-Training-Dataset-v2/
    • README.md
      1.94 KB
    • README.txt
      3.88 KB
      • data/
        • Nemotron-Post-Training-Dataset-v2.zip
          36.78 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供