2 个月前

监督式微调

NVIDIA

摘要

我们推出了Nemotron 3 Nano 30B-A3B，这是一种基于混合专家（Mixture-of-Experts）架构的混合Mamba-Transformer语言模型。Nemotron 3 Nano在25万亿个文本标记上进行了预训练，其中包括超过3万亿个相较于Nemotron 2新增的唯一标记，随后在多样化环境中进行了监督微调及大规模强化学习。与前代Nemotron 2 Nano相比，Nemotron 3 Nano在每前向传播过程中激活的参数少于一半，同时实现了更高的准确率。在推理吞吐量方面，其性能最高可达类似规模开源模型（如GPT-OSS 20B和Qwen3-30B-A3B-Thinking-2507）的3.3倍，且在多个主流基准测试中表现更优。Nemotron 3 Nano在智能体行为、推理能力及对话交互方面均有显著提升，并支持长达100万标记的上下文长度。我们已在Hugging Face平台公开发布Nemotron 3 Nano 30B-A3B基础预训练模型（Base）及后续微调后的检查点（post-trained checkpoints）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

2 个月前

监督式微调

NVIDIA

摘要

我们推出了Nemotron 3 Nano 30B-A3B，这是一种基于混合专家（Mixture-of-Experts）架构的混合Mamba-Transformer语言模型。Nemotron 3 Nano在25万亿个文本标记上进行了预训练，其中包括超过3万亿个相较于Nemotron 2新增的唯一标记，随后在多样化环境中进行了监督微调及大规模强化学习。与前代Nemotron 2 Nano相比，Nemotron 3 Nano在每前向传播过程中激活的参数少于一半，同时实现了更高的准确率。在推理吞吐量方面，其性能最高可达类似规模开源模型（如GPT-OSS 20B和Qwen3-30B-A3B-Thinking-2507）的3.3倍，且在多个主流基准测试中表现更优。Nemotron 3 Nano在智能体行为、推理能力及对话交互方面均有显著提升，并支持长达100万标记的上下文长度。我们已在Hugging Face平台公开发布Nemotron 3 Nano 30B-A3B基础预训练模型（Base）及后续微调后的检查点（post-trained checkpoints）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供