HyperAI超神经

首页算力平台文档资讯论文教程数据集百科 SOTA LLM 模型天梯 GPU 天梯顶会

中文

HyperAI超神经

Nemotron-Post-Training-Dataset-v2 后训练数据集

日期

2 个月前

大小

36.78 GB

机构

论文链接

许可协议

CC BY 4.0

标签

合成生成数据

在线使用此数据集

数据集下载

加入 Discord 社区

Nemotron-Post-Training-Dataset-v2 是英伟达于 2025 年基于既有后训练语料扩展推出的版本。该数据集将 SFT 与 RL 数据扩展到五种目标语言（西/法/德/意/日），覆盖数学、代码、 STEM（科学、技术、工程和数学）、对话等场景，用于提升模型的推理与指令跟随能力；并提供基于元数据的筛选功能与典型子集示例。该数据集服务于 Nemotron-Nano-9B-v2 系列的发布与对齐研究，属于其公开的后训练语料之一，便于用户复现实验与进一步改进。相关论文成果为「NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model」。

可筛选样本分布与元数据：

筛选下载：支持按类别 / 语言 / 来源模型等元数据快速过滤与下载
类别与规模（Value）：math（239,467）；code（175,000）；stem（355,000）chat（627,720）
多语言覆盖：ja 、 de 、 it 、 es 、 fr
生成来源：由多款大模型合成（如 DeepSeek-R1-0528 、 Qwen 2.5/3 系列等）
标注形态：部分样本提供「推理开或关」两种响应；推理轨迹为英文

Nemotron-Post-Training-Dataset-v2.torrent

做种 1正在下载 0已完成 25总下载次数 76

Nemotron-Post-Training-Dataset-v2/
- README.md
  1.94 KB
- README.txt
  3.88 KB

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供