2 个月前

摘要

我们提出 AM-Thinking-v1，这是一个参数量为320亿的密集型语言模型，标志着开源创新协作精神在推理能力前沿的又一次突破。该模型在性能上超越了 DeepSeek-R1，并与领先的混合专家（Mixture-of-Experts, MoE）模型如 Qwen3-235B-A22B 和 Seed1.5-Thinking 相媲美，在多项基准测试中展现出卓越表现：在 AIME 2024 上取得 85.3 分，在 AIME 2025 上取得 74.4 分，在 LiveCodeBench 上取得 70.3 分，充分展现了当前同规模开源模型中顶尖的数学推理与代码生成能力。AM-Thinking-v1 完全基于开源的 Qwen2.5-32B 基础模型，并结合公开可获取的训练数据构建而成。通过精心设计的后训练流程——融合监督微调（Supervised Fine-Tuning）与强化学习（Reinforcement Learning）——该模型实现了出色的推理性能。本工作证明，在32B这一规模上，开源社区完全有能力实现高水平的模型表现，而这一规模正是部署与微调的实际“黄金区间”。通过在顶尖性能与现实可用性之间取得良好平衡，我们期望 AM-Thinking-v1 能够激励更多协作努力，推动中等规模模型的发展，持续拓展推理能力的边界，同时始终将可访问性作为技术创新的核心。目前，我们已将该模型在 Hugging Face 上开源，访问地址为：https://huggingface.co/a-m-team/AM-Thinking-v1。

一句话总结

该研究由 a-m-team 团队提出，AM-Thinking-v1 是一个 32B 参数的密集型语言模型，通过在开源数据上采用优化的后训练流程，在数学与编程基准测试中实现了最先进水平的推理性能，超越 DeepSeek-R1 并接近大型 MoE 模型的表现，同时保持了实际部署的可行性与开源可访问性。

主要贡献

AM-Thinking-v1 是一个基于开源 Qwen2.5-32B 基础模型和公开可用训练数据构建的 32B 参数密集型语言模型，在数学与代码基准测试中展现出最先进推理能力，无需依赖大规模混合专家（MoE）架构或专有数据。
该模型在 AIME 2024 上取得 85.3 分，在 AIME 2025 上取得 74.4 分，在 LiveCodeBench 上取得 70.3 分，通过精心设计的后训练流程实现，该流程结合监督微调与两阶段强化学习，包括难度感知查询选择和渐进式数据过滤。
通过严格的预处理流程——如去重、剔除低质量或多模态查询、验证真实答案——模型显著提升了推理能力，超越了更大的 MoE 模型（如 DeepSeek-R1），并接近 Qwen3-235B-A22B 和 Seed1.5-Thinking 的性能。

引言

作者利用公开可用的 Qwen2.5-32B 基础模型，开发了 AM-Thinking-v1，这是一个专为高级推理任务（如数学问题求解和代码生成）优化的密集型语言模型。本工作意义重大，因为它证明了高性能推理——此前主要由超大规模混合专家（MoE）模型主导——可以在 32B 规模的密集架构中实现，相比大型 MoE 系统具有更好的可部署性和更低的基础设施需求。以往方法要么依赖专有数据、超大模型，要么采用复杂的部署流程，限制了可访问性与实用性。其核心贡献在于一个精心设计的后训练流程，仅使用开源数据，包含严格的预处理、数学查询的真实答案验证，以及结合监督微调与强化学习的两阶段训练过程，其中引入了难度感知查询选择。这使得 AM-Thinking-v1 在 AIME2024、AIME2025 和 LiveCodeBench 等基准测试中超越了更大规模的 MoE 模型，证明了通过精心的数据筛选与训练设计，可以在不牺牲模型效率的前提下弥合推理性能差距。

数据集

数据集包含约 284 万条样本，来自五个核心领域：数学推理、代码生成、科学推理、指令遵循和通用对话，均来自公开的开源来源。
数学推理数据来自 OpenR1-Math-220k、Big-Math-RL-Verified、NuminaMath、MetaMathQA、2023_amc_data、DeepMath-103K 和 AIME 等数据集，每条查询均附有可验证的真实答案。
代码生成数据来自 PRIME、DeepCoder、KodCode、liveincode_generation、codeforces_cots、verifiableCoding、opencoder、OpenThoughts-114k-Code_decontaminated 和 AceCode-87K，所有数据均包含可验证的测试用例。
科学推理包含来自 task_mmmlu、chemistryQA、Llama-Nemotron-Post-Training-Dataset-v1、LOGIC-701、ncert 和 logicLM 的多项选择题，每道题均配有可靠的真实答案。
指令遵循数据来自 Llama-Nemotron-Post-Training-Dataset 和 tulu-3-sft-mixture。
通用对话数据涵盖 evol、InfinityInstruct、open_orca、tulu-3-sft-mixture、natural_reasoning、flan、ultra_chat 和 OpenHermes-2.5，覆盖开放式、多轮和单轮交互。
所有数据均经过去重和过滤：移除包含 URL 或图像引用的查询，以防止幻觉并确保与纯文本模型的兼容性。
使用大语言模型（LLM）过滤描述不清的数学查询，真实答案通过对比 DeepSeek-R1 的回答与原始答案，利用 math_verify 进行验证。不一致结果将通过 o4-mini 重新评估，若 o4-mini 的答案与 DeepSeek-R1 的多数回答一致，则修正错误的真实答案。
排除数学证明题和多子问题查询；多选题数学题被重写为填空题以保留实用性。
代码查询在支持 Python 和 C++ 的安全分布式云沙箱中处理。代码块使用标准 Markdown 语法标记（如 python, cpp）。测试用例为方法调用（转换为断言）或标准输入/输出（通过 stdin/stdout 处理）。仅当所有测试用例通过时，查询才获得 1 分奖励。
为防止数据泄露，训练查询被过滤，排除与评估集存在完全匹配或语义相似的样本。
在监督微调阶段，模型在 Qwen2.5-32B 上训练，学习率为 8e-5，全局批量大小为 64，训练 2 个周期，采用余弦预热（占总步数的 5%）。序列长度上限为 32k token，使用序列打包。
对于数据稀缺类别（如指令遵循），通过重复进行数据上采样。对挑战性查询，通过生成多个合成响应以提升训练多样性与鲁棒性。
在多轮对话中，仅使用最终响应（包含完整推理链）作为训练目标，损失仅在该输出上计算，以强调推理质量。

方法

作者采用两阶段强化学习（RL）流程，以增强基于 Qwen2.5-32B 基础模型构建的 32B 密集型语言模型 AM-Thinking-v1 的推理能力。整体训练框架基于开源的 verl 强化学习框架，集成 vLLM、FSDP 和 Megatron-LM，支持在 1000+ GPU 上实现可扩展训练。RL 流程设计确保了稳定且高效的策略更新，同时保持计算效率。

训练流程始于预过滤步骤，用于选择难度适中的查询。数学与代码查询根据监督微调（SFT）模型的通过率进行筛选，仅保留通过率严格介于 0 和 1 之间的样本。这确保了训练数据具有足够的挑战性以驱动学习，同时避免因过于简单或不可解样本导致的不稳定性。过滤后的数据集包含 32k 条数学查询和 22k 条代码查询。

RL 流程包含两个阶段。在第一阶段，模型在过滤后的数学与代码查询上使用组相对策略优化（GRPO）进行训练，GRPO 是近端策略优化（PPO）的轻量级变体。训练配置包含若干关键设计：不施加 KL 约束，允许更大幅度的策略更新；在回放过程中，超过长度阈值的响应被赋予零优势，以防止过长输出影响参数更新；强制执行严格在线策略训练，即每批 256 个查询生成 16 次回放，每个探索阶段仅更新一次策略。最大响应长度限制为 24K token，使用相对较高的学习率 $4 \times 10^{-6}$ 以加速收敛。

当第一阶段性能趋于平稳时，流程进入第二阶段。在此阶段，将第一阶段中模型以 100% 准确率回答的所有数学与代码查询从训练集中移除。数据集随后通过增加 15k 条通用对话和 5k 条指令遵循数据进行扩充，以提升模型的泛化能力。最大响应长度提升至 32K token，学习率降低至 $1 \times 10^{-6}$ ，以稳定后期训练过程。

如图所示，RL 框架分为两个张量并行（TP）组，每组包含多个 GPU。每组内部使用负载均衡器分发传入请求。LLM Requester 与 AsyncEngine API Server 管理查询流，vLLM LLMEngine 负责推理，Actor 组件执行策略更新。Actor 使用 FSDP/Megatron 实现分布式训练，并在 GRPO 更新期间维护旧策略用于对比。框架还支持外部 API 用于奖励计算，将 LLM 作为裁判和代码沙箱等资源密集型操作外挂处理。奖励计算按来源类型分类，包括 Code、Math、Instruction Following（IF）和其他，每类奖励独立计算。这种模块化设计支持在大规模集群上高效、可扩展的强化学习训练。

实验

合成响应过滤通过困惑度、n-gram 重复率和结构检查验证质量；真实答案查询通过通过率验证，其他查询通过基于 LLM 的奖励评分验证。
可验证查询（数学、代码、指令遵循）采用基于规则的验证：数学答案通过归一化比较（math_verify）验证，指令遵循通过 IFEval 严格模式评估，输出二元奖励。
非可验证查询使用奖励模型评估有用性、正确性和连贯性；最终得分为三者平均值。
回放速度优化采用分离式回放与流式负载均衡，降低长尾延迟，通过动态分配生成任务提升 GPU 利用率。
在 AIME2024 上，AM-Thinking-v1 达到 85.3 pass@1，超越 DeepSeek-R1（80.0）和 Qwen3-32B（78.7），与更大模型 Qwen3-235B-A22B（85.3）持平。
在 AIME2025 上，得分为 74.4，优于 DeepSeek-R1（70.0）和 Qwen3-32B（69.3）。
在 LiveCodeBench 上，AM-Thinking-v1 达到 70.3 pass@1，显著超越 DeepSeek-R1（64.3）、Qwen3-32B（65.7）和 Nemo-Ultra-256B（68.1）。
在 Arena-Hard 上，得分为 92.5，与 OpenAI-o1（92.1）和 o3-mini（89.0）相当，但低于 Qwen3-235B-A22B（95.6）。
SFT 训练显示模式转变：较高学习率（8×10⁻⁵）和批量大小（2M token）实现收敛；生成长度随时间减少，停止比例上升，表明推理结构对齐能力提升。

作者在多个推理基准测试中采用一致的评估设置，将 AM-Thinking-v1 与多个领先模型进行比较。结果表明，AM-Thinking-v1 在数学与编程任务中表现强劲，超越或接近 DeepSeek-R1 和 Qwen3-32B 等更大模型，同时在通用对话基准 Arena-Hard 上也展现出竞争力。

作者在多个推理基准测试中评估 AM-Thinking-v1，并与多个领先的大规模模型进行比较。在数学任务中，AM-Thinking-v1 在 AIME2024 和 AIME2025 上分别取得 85.3 和 74.4 分，优于或接近 DeepSeek-R1 和 Qwen3-235B-A22B 等更大模型。在 LiveCodeBench 基准测试中，AM-Thinking-v1 达到 70.3 分，显著超越 DeepSeek-R1（64.3）、Qwen3-32B（65.7）和 Nemotron-Ultra-253B（68.1），展现出强大的代码理解与生成能力。在通用对话基准 Arena-Hard 上，AM-Thinking-v1 获得 92.5 分，与 OpenAI-o1（92.1）和 o3-mini（89.0）等专有模型相当。然而，其性能仍落后于 Qwen3-235B-A22B（95.6），表明在通用对话能力方面仍有提升空间。

作者利用提供的图表，将 AM-Thinking-v1 在 AIME2024 和 LiveCodeBench 基准测试中的性能与多种模型进行对比，绘制模型规模与基准得分的关系图。结果显示，AM-Thinking-v1 在两项任务中均表现出色，超越多个更大模型，展现出相对于其参数量的高效竞争力。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

2 个月前

Ji Yunjie Tian Xiaoyu Zhao Sitong Wang Haotian Chen Shuaiting

摘要

一句话总结

主要贡献

AM-Thinking-v1 是一个基于开源 Qwen2.5-32B 基础模型和公开可用训练数据构建的 32B 参数密集型语言模型，在数学与代码基准测试中展现出最先进推理能力，无需依赖大规模混合专家（MoE）架构或专有数据。
该模型在 AIME 2024 上取得 85.3 分，在 AIME 2025 上取得 74.4 分，在 LiveCodeBench 上取得 70.3 分，通过精心设计的后训练流程实现，该流程结合监督微调与两阶段强化学习，包括难度感知查询选择和渐进式数据过滤。
通过严格的预处理流程——如去重、剔除低质量或多模态查询、验证真实答案——模型显著提升了推理能力，超越了更大的 MoE 模型（如 DeepSeek-R1），并接近 Qwen3-235B-A22B 和 Seed1.5-Thinking 的性能。

引言

数据集

数据集包含约 284 万条样本，来自五个核心领域：数学推理、代码生成、科学推理、指令遵循和通用对话，均来自公开的开源来源。
数学推理数据来自 OpenR1-Math-220k、Big-Math-RL-Verified、NuminaMath、MetaMathQA、2023_amc_data、DeepMath-103K 和 AIME 等数据集，每条查询均附有可验证的真实答案。
代码生成数据来自 PRIME、DeepCoder、KodCode、liveincode_generation、codeforces_cots、verifiableCoding、opencoder、OpenThoughts-114k-Code_decontaminated 和 AceCode-87K，所有数据均包含可验证的测试用例。
科学推理包含来自 task_mmmlu、chemistryQA、Llama-Nemotron-Post-Training-Dataset-v1、LOGIC-701、ncert 和 logicLM 的多项选择题，每道题均配有可靠的真实答案。
指令遵循数据来自 Llama-Nemotron-Post-Training-Dataset 和 tulu-3-sft-mixture。
通用对话数据涵盖 evol、InfinityInstruct、open_orca、tulu-3-sft-mixture、natural_reasoning、flan、ultra_chat 和 OpenHermes-2.5，覆盖开放式、多轮和单轮交互。
所有数据均经过去重和过滤：移除包含 URL 或图像引用的查询，以防止幻觉并确保与纯文本模型的兼容性。
使用大语言模型（LLM）过滤描述不清的数学查询，真实答案通过对比 DeepSeek-R1 的回答与原始答案，利用 math_verify 进行验证。不一致结果将通过 o4-mini 重新评估，若 o4-mini 的答案与 DeepSeek-R1 的多数回答一致，则修正错误的真实答案。
排除数学证明题和多子问题查询；多选题数学题被重写为填空题以保留实用性。
代码查询在支持 Python 和 C++ 的安全分布式云沙箱中处理。代码块使用标准 Markdown 语法标记（如 python, cpp）。测试用例为方法调用（转换为断言）或标准输入/输出（通过 stdin/stdout 处理）。仅当所有测试用例通过时，查询才获得 1 分奖励。
为防止数据泄露，训练查询被过滤，排除与评估集存在完全匹配或语义相似的样本。
在监督微调阶段，模型在 Qwen2.5-32B 上训练，学习率为 8e-5，全局批量大小为 64，训练 2 个周期，采用余弦预热（占总步数的 5%）。序列长度上限为 32k token，使用序列打包。
对于数据稀缺类别（如指令遵循），通过重复进行数据上采样。对挑战性查询，通过生成多个合成响应以提升训练多样性与鲁棒性。
在多轮对话中，仅使用最终响应（包含完整推理链）作为训练目标，损失仅在该输出上计算，以强调推理质量。

方法

实验

合成响应过滤通过困惑度、n-gram 重复率和结构检查验证质量；真实答案查询通过通过率验证，其他查询通过基于 LLM 的奖励评分验证。
可验证查询（数学、代码、指令遵循）采用基于规则的验证：数学答案通过归一化比较（math_verify）验证，指令遵循通过 IFEval 严格模式评估，输出二元奖励。
非可验证查询使用奖励模型评估有用性、正确性和连贯性；最终得分为三者平均值。
回放速度优化采用分离式回放与流式负载均衡，降低长尾延迟，通过动态分配生成任务提升 GPU 利用率。
在 AIME2024 上，AM-Thinking-v1 达到 85.3 pass@1，超越 DeepSeek-R1（80.0）和 Qwen3-32B（78.7），与更大模型 Qwen3-235B-A22B（85.3）持平。
在 AIME2025 上，得分为 74.4，优于 DeepSeek-R1（70.0）和 Qwen3-32B（69.3）。
在 LiveCodeBench 上，AM-Thinking-v1 达到 70.3 pass@1，显著超越 DeepSeek-R1（64.3）、Qwen3-32B（65.7）和 Nemo-Ultra-256B（68.1）。
在 Arena-Hard 上，得分为 92.5，与 OpenAI-o1（92.1）和 o3-mini（89.0）相当，但低于 Qwen3-235B-A22B（95.6）。
SFT 训练显示模式转变：较高学习率（8×10⁻⁵）和批量大小（2M token）实现收敛；生成长度随时间减少，停止比例上升，表明推理结构对齐能力提升。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

AM-Thinking-v1：在32B规模下推进推理能力的前沿

Ji Yunjie Tian Xiaoyu Zhao Sitong Wang Haotian Chen Shuaiting6 more

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

AM-Thinking-v1：在32B规模下推进推理能力的前沿

Ji Yunjie Tian Xiaoyu Zhao Sitong Wang Haotian Chen Shuaiting6 more

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

AM-Thinking-v1：在32B规模下推进推理能力的前沿

Ji Yunjie Tian Xiaoyu Zhao Sitong Wang Haotian Chen Shuaiting6 more

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Ji Yunjie Tian Xiaoyu Zhao Sitong Wang Haotian Chen Shuaiting

Ji Yunjie Tian Xiaoyu Zhao Sitong Wang Haotian Chen Shuaiting

Ji Yunjie Tian Xiaoyu Zhao Sitong Wang Haotian Chen Shuaiting