Command Palette

Search for a command to run...

14日前

小さなモデル、大きな論理:多様性駆動型最適化がVibeThinker-1.5Bに大規模モデルの推論能力を引き出す

Sen Xu Yi Zhou Wei Wang Jixin Min Zhibin Yin Yingwei Dai Shixi Liu Lianyu Pang Yirong Chen Junlin Zhang

小さなモデル、大きな論理:多様性駆動型最適化がVibeThinker-1.5Bに大規模モデルの推論能力を引き出す

要約

現在の常識である「小規模モデルは本質的に堅牢な推論能力を欠く」という見解に挑戦し、本報告では、我々が提唱する「スペクトルから信号へ」原理(Spectrum-to-Signal Principle, SSP)に基づいて開発された、パラメータ数15億(1.5B)の密接接続型モデル「VibeThinker-1.5B」を紹介する。このモデルは、DeepSeek R1(671B)やKimi k2(1兆以上)といった大規模モデルが採用しているパラメータ数の拡大による能力向上という従来のアプローチに挑戦するものである。SSPフレームワークは、まず「二段階の多様性探索型蒸留(Two-Stage Diversity-Exploring Distillation, SFT)」を用いて広範な解のスケールを生成し、その後「MaxEnt誘導型ポリシー最適化(MaxEnt-Guided Policy Optimization, RL)」により正解の信号を強化する。全体の学習コストはわずか7,800ドルにとどまり、VibeThinker-1.5BはMagistral MediumやClaude Opus 4といった閉鎖型モデルよりも優れた推論能力を発揮しており、GPT OSS-20B Mediumといったオープンソースモデルと同等の性能を達成している。特に驚くべきことに、パラメータ数が400倍以上大きいDeepSeek R1に対して、3つの数学ベンチマークで上回っている:AIME24(80.3 vs. 79.8)、AIME25(74.4 vs. 70.0)、HMMT25(50.4 vs. 41.7)。これはベースモデル(それぞれ6.7、4.3、0.6)と比べて顕著な向上である。また、LiveCodeBench V6においては51.1というスコアを記録し、Magistral Mediumの50.3およびベースモデルの0.0を上回っている。これらの結果は、小規模モデルであっても大規模モデルと同等の推論能力を実現可能であり、学習および推論コストを大幅に削減することで、高度なAI研究の民主化を実現できる可能性を示している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
小さなモデル、大きな論理:多様性駆動型最適化がVibeThinker-1.5Bに大規模モデルの推論能力を引き出す | 論文 | HyperAI超神経