Command Palette

Search for a command to run...

Nemotron-Pretraining-SFT-v1 监督式微调数据集

日期

2 个月前

机构

NVIDIA(英伟达)

论文链接

2508.14444

许可协议

其他

加入 Discord 社区

Nemotron-Pretraining-SFT-v1 是英伟达于 2025 年发布的一个合成生成数据集,相关的论文成果为「NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model」,旨在强化模型在指令跟随、推理、代码与通识问答等任务上的能力。

该数据集面向 STEM 、学术、逻辑推理与多语言场景,由高质量数学和科学素材扩展生成,并结合研究生层级的学术文本与已指令微调的 SFT 数据,构造出复杂多选题与解析题(含完整解答/思路),覆盖数学、代码、通识与逻辑推理等多类任务。

在 Nemotron 预训练数据的官方统计中,SFT 相关类别(如 Math SFT 、 Code SFT 、 General SFT)占据显著比例,便于用户按元数据筛选需要的子集进行复现实验。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供