Command Palette

Search for a command to run...

14 天前

小型模型,大逻辑:多样性驱动的优化在VibeThinker-1.5B中激发了大模型的推理能力

Sen Xu Yi Zhou Wei Wang Jixin Min Zhibin Yin Yingwei Dai Shixi Liu Lianyu Pang Yirong Chen Junlin Zhang

小型模型,大逻辑:多样性驱动的优化在VibeThinker-1.5B中激发了大模型的推理能力

摘要

挑战当前普遍认为小模型在推理能力上 inherently 存在局限的共识,本报告提出 VibeThinker-1.5B——一个基于我们提出的“谱域到信号域”原则(Spectrum-to-Signal Principle, SSP)构建的15亿参数密集型模型。该模型打破了通过单纯扩大参数规模以提升能力的主流范式,与 DeepSeek R1(6710亿参数)和 Kimi k2(超万亿参数)等大模型形成鲜明对比。SSP 框架首先通过两阶段多样性探索蒸馏(Two-Stage Diversity-Exploring Distillation, SFT)生成广泛多样的解法,随后利用最大熵引导的策略优化(MaxEnt-Guided Policy Optimization, RL)强化正确信号。整个训练成本仅需7800美元,VibeThinker-1.5B 在推理能力上已超越闭源模型 Magistral Medium 和 Claude Opus 4,且与开源模型 GPT OSS-20B Medium 相当。尤为突出的是,其在三项数学基准测试中均显著超越参数量大400倍的 DeepSeek R1:AIME24(80.3 vs. 79.8)、AIME25(74.4 vs. 70.0)和 HMMT25(50.4 vs. 41.7),相较其基础模型的得分(分别为6.7、4.3和0.6)实现质的飞跃。在 LiveCodeBench V6 上,其得分为51.1,优于 Magistral Medium 的50.3,也远超其基础模型的0.0分。这些结果表明,小模型同样可实现与大模型相媲美的推理能力,大幅降低训练与推理成本,从而推动先进人工智能研究的普惠化发展。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供