2 个月前

摘要

大多数语言模型都面临一个根本性权衡：强大的能力往往需要庞大的计算资源。我们通过Jan-nano这一40亿参数的语言模型打破了这一限制——它以极致的专业化重新定义了效率：与其试图掌握一切，不如精通即时查找任何信息的本领。Jan-nano基于Qwen3-4B模型，采用我们创新的多阶段可验证奖励强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）系统进行微调，彻底摒弃了对下一词预测训练（SFT）的依赖。在集成MCP（Memory-Computation Pipeline）技术后，Jan-nano在SimpleQA基准测试中取得了83.2%的得分，同时可在消费级硬件上运行。凭借128K的上下文长度，Jan-nano证明：智能的本质不在于规模，而在于策略。

一句话总结

Menlo Research 的研究者提出了 Jan-nano，一个 4B 参数的语言模型，通过一种新颖的多阶段 RLVR 训练方法（摒弃了下一词预测），在 SimpleQA 上实现了 83.2% 的高准确率，能够在消费级硬件上以 128K 上下文高效地进行策略驱动的信息检索。

主要贡献

Jan-nano 通过引入一个专为快速、精准信息检索而非知识记忆设计的 4B 参数语言模型，解决了模型性能与计算效率之间的长期权衡问题，使在消费级硬件上实现高能力推理成为可能。
该模型采用一种新颖的多阶段强化学习可验证奖励（RLVR）框架进行训练，摒弃了对下一词预测（SFT）的依赖，转而使用 DAPO 和“强制不思考”正则化，以优化简洁、正确的工具使用，避免过度思考。
在集成 MCP 的 SimpleQA 基准上进行评估，Jan-nano 达到 83.2% 的准确率——表现强劲，可与更大模型相媲美——同时支持 128K 上下文长度，并在本地 RAG 环境中高效运行。

引言

大型语言模型的发展长期面临高性能与计算效率之间的权衡，最先进的成果通常依赖于大型模型，难以在本地部署。先前在检索增强生成（RAG）方面的研究通过外部工具提升了推理能力，但多数工作集中于 7B+ 参数的大模型，导致小型高效模型在复杂、工具增强任务中被低估。本文作者提出 Jan-nano，一个专为高效、工具驱动推理设计的 4B 参数模型。其核心贡献是 RLVR 训练框架，一种替代传统监督微调的多阶段强化学习方法。通过使用 DAPO 进行偏好优化，并引入“强制不思考”正则化以惩罚不必要的步骤，Jan-nano 被优化为直接、准确地调用工具。在本地 RAG 环境下对 SimpleQA 进行评估，其准确率达到 83.2%，超越基线模型，媲美远大模型，证明了当策略性设计时，专用且高效的架构可在知识密集型任务中实现高性能。

数据集

数据集源自 MuSiQue-Ans [Trivedi 等, 2022]，这是一个专为支持多跳推理而设计的问答数据集。
包含 10,325 个样本，按推理深度分类：7,000 个两跳问题（67.8%），2,150 个三跳问题（20.8%），1,175 个四跳问题（11.4%）。
该数据集因其结构化的难度递进以及包含支持段落（为每个答案提供证据）而被选中。
作者将该数据集作为训练数据的一部分，与其他来源混合使用，以反映不同推理复杂度。
未描述显式的裁剪或元数据构建，但数据已处理为与模型输入格式对齐，保留原始问题-答案对及支持证据。

方法

作者利用一种多阶段强化学习框架（带可验证奖励，RLVR）训练 Jan-nano，一个 4B 参数的语言模型，通过专用工具使用实现高性能，而非依赖传统的下一词预测训练。训练从 Qwen3-4B 出发，通过一个受控环境进行，使用 MuSiQue 数据集，并辅以本地 RAG 服务器，模拟真实搜索引擎行为。该设置使模型能够学习高效的资讯检索与整合策略，同时保持自主性。

训练过程遵循三阶段推进。第一阶段，模型学习基础工具操作与交互模式，上下文长度为 8K。此阶段的奖励函数设计用于平衡多个目标：正确答案生成、工具执行成功、响应格式合规以及 XML 结构遵循。该阶段建立工具调用与响应格式化的基础行为。如图所示，模型启动网络搜索以获取相关信息，展示了早期阶段的工具使用。

第二阶段，重点转向答案质量，模型继续在 8K 上下文下运行。奖励函数重新配置，优先考虑正确性，移除工具执行和格式遵循的激励。这促使模型优化其推理与整合能力，确保生成的回答准确且由检索信息充分支持。结构化的 XML 格式保持不变，工具通过 <tool> 标签调用，结果返回在 <result> 标签中，最终答案封装在 <answer> 标签内。这种一致格式有助于强化学习过程中的可靠解析与比较。

第三阶段将上下文长度从 8K 扩展至 40K，使模型能够处理更复杂、多步骤的查询，需要更深层次的信息整合。此阶段强调上下文扩展与重复工具调用能力，如图所示，模型执行多次获取操作以收集全面数据，再生成综合回答。训练方法确保模型发展出自主推理模式，仅需最少系统提示，从而有效应对复杂用户查询。

实验

Jan-nano 在 SimpleQA 基准上以 4B 参数实现 83.2% 的准确率，相比使用 MCP 的 Qwen3-4B 基线（59.2%）提升 24 个百分点，展现出强大的参数效率；128K 上下文版本进一步提升 2.5 个百分点，表明长上下文带来的优势。
使用 40K 上下文窗口训练，在保持高响应质量的同时支持更长输入处理，奖励函数聚焦于正确性与 XML 结构。
更大模型（8B）表现出过度思考行为，施加不必要的过滤，导致相关结果被剔除并引发幻觉，而 4B 模型的直接搜索方法实现更高准确率与可靠性。
禁用思考机制可显著提升响应速度，仅带来适度的准确率损失，因此采用“强制不思考”训练以优化用户体验。
Jan-nano 在基于 LangGraph 的 ReAct 与 MCP 配置下表现优于 smolagents CodeAgent（80.7% vs 76.2%），因其与训练中使用的 JSON 工具调用模板更匹配，凸显格式兼容性在智能体系统性能中的重要性。
基于 MCP 的评估支持灵活、贴近现实的智能体行为测试，支持动态工具集成与真实用户体验复现，是评估自主推理的首选框架。

作者评估了模型规模与思考模式对 SimpleQA 基准性能的影响。结果显示，当两者均以 Think 模式运行时，4B 模型得分高达 71.0%，高于 8B 模型的 62.2%，表明大模型可能因过度思考行为导致性能下降。

作者对比了 Jan-nano 在两种智能体框架下的表现，发现 LangGraph MCP 配置的准确率（80.7%）高于 smolagents CodeAgent 设置（76.2%）。这一差异归因于与模型训练中使用的 JSON 工具调用模板更佳的对齐，凸显了格式兼容性在智能体系统性能中的关键作用。

作者使用 SimpleQA 基准评估 MCP 集成下的模型性能，结果显示 Jan-nano 以 4B 参数实现 83.2% 的准确率，相比 Qwen3-4B 基线提升 24 个百分点。该结果表明，其性能可与 DeepSeek-671B 等更大模型相竞争，同时保持极高的参数效率。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

2 个月前

Alan Dao Dinh Bach Vu

摘要

一句话总结

主要贡献

Jan-nano 通过引入一个专为快速、精准信息检索而非知识记忆设计的 4B 参数语言模型，解决了模型性能与计算效率之间的长期权衡问题，使在消费级硬件上实现高能力推理成为可能。
该模型采用一种新颖的多阶段强化学习可验证奖励（RLVR）框架进行训练，摒弃了对下一词预测（SFT）的依赖，转而使用 DAPO 和“强制不思考”正则化，以优化简洁、正确的工具使用，避免过度思考。
在集成 MCP 的 SimpleQA 基准上进行评估，Jan-nano 达到 83.2% 的准确率——表现强劲，可与更大模型相媲美——同时支持 128K 上下文长度，并在本地 RAG 环境中高效运行。

引言

数据集

数据集源自 MuSiQue-Ans [Trivedi 等, 2022]，这是一个专为支持多跳推理而设计的问答数据集。
包含 10,325 个样本，按推理深度分类：7,000 个两跳问题（67.8%），2,150 个三跳问题（20.8%），1,175 个四跳问题（11.4%）。
该数据集因其结构化的难度递进以及包含支持段落（为每个答案提供证据）而被选中。
作者将该数据集作为训练数据的一部分，与其他来源混合使用，以反映不同推理复杂度。
未描述显式的裁剪或元数据构建，但数据已处理为与模型输入格式对齐，保留原始问题-答案对及支持证据。

方法

实验

Jan-nano 在 SimpleQA 基准上以 4B 参数实现 83.2% 的准确率，相比使用 MCP 的 Qwen3-4B 基线（59.2%）提升 24 个百分点，展现出强大的参数效率；128K 上下文版本进一步提升 2.5 个百分点，表明长上下文带来的优势。
使用 40K 上下文窗口训练，在保持高响应质量的同时支持更长输入处理，奖励函数聚焦于正确性与 XML 结构。
更大模型（8B）表现出过度思考行为，施加不必要的过滤，导致相关结果被剔除并引发幻觉，而 4B 模型的直接搜索方法实现更高准确率与可靠性。
禁用思考机制可显著提升响应速度，仅带来适度的准确率损失，因此采用“强制不思考”训练以优化用户体验。
Jan-nano 在基于 LangGraph 的 ReAct 与 MCP 配置下表现优于 smolagents CodeAgent（80.7% vs 76.2%），因其与训练中使用的 JSON 工具调用模板更匹配，凸显格式兼容性在智能体系统性能中的重要性。
基于 MCP 的评估支持灵活、贴近现实的智能体行为测试，支持动态工具集成与真实用户体验复现，是评估自主推理的首选框架。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

Jan-nano 技术报告

Alan Dao Dinh Bach Vu

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Jan-nano 技术报告

Alan Dao Dinh Bach Vu

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Jan-nano 技术报告

Alan Dao Dinh Bach Vu

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters