HyperAIHyperAI

Command Palette

Search for a command to run...

Nemotron-Pretraining-SFT-v1 监督式微调数据集

Discuss on Discord

Date

4 个月前

Organization

NVIDIA(英伟达)

Paper URL

2508.14444

License

Other

Tags

Nemotron-Pretraining-SFT-v1 是英伟达于 2025 年发布的一个合成生成数据集,相关的论文成果为「NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model」,旨在强化模型在指令跟随、推理、代码与通识问答等任务上的能力。

该数据集面向 STEM 、学术、逻辑推理与多语言场景,由高质量数学和科学素材扩展生成,并结合研究生层级的学术文本与已指令微调的 SFT 数据,构造出复杂多选题与解析题(含完整解答/思路),覆盖数学、代码、通识与逻辑推理等多类任务。

在 Nemotron 预训练数据的官方统计中,SFT 相关类别(如 Math SFT 、 Code SFT 、 General SFT)占据显著比例,便于用户按元数据筛选需要的子集进行复现实验。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供