Command Palette
Search for a command to run...
Sen Xu Yi Zhou Wei Wang Jixin Min Zhibin Yin Yingwei Dai Shixi Liu Lianyu Pang Yirong Chen Junlin Zhang

摘要
挑战当前普遍认为小模型在推理能力上 inherently 存在局限的共识,本报告提出 VibeThinker-1.5B——一个基于我们提出的“谱域到信号域”原则(Spectrum-to-Signal Principle, SSP)构建的15亿参数密集型模型。该模型打破了通过单纯扩大参数规模以提升能力的主流范式,与 DeepSeek R1(6710亿参数)和 Kimi k2(超万亿参数)等大模型形成鲜明对比。SSP 框架首先通过两阶段多样性探索蒸馏(Two-Stage Diversity-Exploring Distillation, SFT)生成广泛多样的解法,随后利用最大熵引导的策略优化(MaxEnt-Guided Policy Optimization, RL)强化正确信号。整个训练成本仅需7800美元,VibeThinker-1.5B 在推理能力上已超越闭源模型 Magistral Medium 和 Claude Opus 4,且与开源模型 GPT OSS-20B Medium 相当。尤为突出的是,其在三项数学基准测试中均显著超越参数量大400倍的 DeepSeek R1:AIME24(80.3 vs. 79.8)、AIME25(74.4 vs. 70.0)和 HMMT25(50.4 vs. 41.7),相较其基础模型的得分(分别为6.7、4.3和0.6)实现质的飞跃。在 LiveCodeBench V6 上,其得分为51.1,优于 Magistral Medium 的50.3,也远超其基础模型的0.0分。这些结果表明,小模型同样可实现与大模型相媲美的推理能力,大幅降低训练与推理成本,从而推动先进人工智能研究的普惠化发展。