Llama-Nemotron-Post-Training-Dataset 后训练数据集
Llama-Nemotron-Post-Training-Dataset 是由英伟达于 2025 年开源的大规模后训练数据集,相关论文成果为「Llama-Nemotron: Efficient Reasoning Models」,旨在提升 Llama-Nemotron 系列模型在后训练阶段(如 SFT 、 RL)的数学、代码、通用推理与指令跟随等能力。
该数据集整合了监督式微调(SFT)与强化学习(RL)阶段的数据。当前版本为 v1.1(较前版本新增约 220 万条数学样本与 50 万条代码推理样本),适用于训练 AI 智能体(Agent)、聊天机器人、 RAG 系统 及其他 AI 驱动应用。
数据分布(按类别条目数)
- 数学(math):22,066,397
- 代码(code):10,108,883
- 科学(science):708,920
- 指令跟随(instruction following):56,339
- 对话(chat):39,792
- 安全(safety):31,426