HyperAI超神经

挑战当前普遍认为小模型在推理能力上 inherently 存在局限的共识，本报告提出 VibeThinker-1.5B——一个基于我们提出的“谱域到信号域”原则（Spectrum-to-Signal Principle, SSP）构建的15亿参数密集型模型。该模型打破了通过单纯扩大参数规模以提升能力的主流范式，与 DeepSeek R1（6710亿参数）和 Kimi k2（超万亿参数）等大模型形成鲜明对比。SSP 框架首先通过两阶段多样性探索蒸馏（Two-Stage Diversity-Exploring Distillation, SFT）生成广泛多样的解法，随后利用最大熵引导的策略优化（MaxEnt-Guided Policy Optimization, RL）强化正确信号。整个训练成本仅需7800美元，VibeThinker-1.5B 在推理能力上已超越闭源模型 Magistral Medium 和 Claude Opus 4，且与开源模型 GPT OSS-20B Medium 相当。尤为突出的是，其在三项数学基准测试中均显著超越参数量大400倍的 DeepSeek R1：AIME24（80.3 vs. 79.8）、AIME25（74.4 vs. 70.0）和 HMMT25（50.4 vs. 41.7），相较其基础模型的得分（分别为6.7、4.3和0.6）实现质的飞跃。在 LiveCodeBench V6 上，其得分为51.1，优于 Magistral Medium 的50.3，也远超其基础模型的0.0分。这些结果表明，小模型同样可实现与大模型相媲美的推理能力，大幅降低训练与推理成本，从而推动先进人工智能研究的普惠化发展。

小型模型，大逻辑：多样性驱动的优化在VibeThinker-1.5B中激发了大模型的推理能力

Sen Xu Yi Zhou Wei Wang Jixin Min Zhibin Yin Yingwei Dai Shixi Liu Lianyu Pang Yirong Chen Junlin Zhang

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

小型模型，大逻辑：多样性驱动的优化在VibeThinker-1.5B中激发了大模型的推理能力

Sen Xu Yi Zhou Wei Wang Jixin Min Zhibin Yin Yingwei Dai Shixi Liu Lianyu Pang Yirong Chen Junlin Zhang

摘要

用 AI 构建 AI

Hyper Newsletters