Command Palette

Search for a command to run...

1ヶ月前

アプリエル-1.5-15b-シンカー

アプリエル-1.5-15b-シンカー

要約

本稿では、パラメータ数150億のオープンウェイト多モーダル推論モデル「Apriel-1.5-15B-Thinker」を紹介する。このモデルは、単に規模を拡大するのではなく、訓練設計に工夫を凝らしたことで、最先端レベルの性能を達成している。本研究では、Pixtral-12Bを出発点として、段階的な三段階アプローチを採用した。第一段階では、事前学習を再構築することなく、推論能力を拡張するための「深さの拡張(depth upscaling)」を実施。第二段階では、段階的継続的事前学習(staged continual pre-training)を実施し、まず基礎的なテキストおよび視覚理解能力を構築した後、空間構造、構成的理解、微細な認識といった視覚推論の課題を解決するためのターゲット型合成データ生成により、視覚推論能力を強化した。第三段階では、数学、プログラミング、科学、ツール利用を対象とする明示的な推論プロセスを含む、厳選された指示・応答ペアを用いて、高品質なテキスト専用の教師あり微調整(supervised fine-tuning)を実施した。特に注目すべきは、強化学習や好み最適化を一切用いずに、競争力のある性能を達成した点であり、本研究のデータ中心型継続的事前学習アプローチの貢献を明確に分離できたことである。人工分析知能指数(Artificial Analysis Intelligence Index)において、Apriel-1.5-15B-Thinkerは52のスコアを記録し、DeepSeek-R1-0528と同等の性能を達成したが、必要な計算リソースははるかに少ない。10の画像ベンチマークにおいても、平均してGemini-2.5-FlashおよびClaude Sonnet-3.7と5ポイント以内の差で競合しており、単一GPU環境でのデプロイ制約下で達成された重要な成果である。本研究の結果から、訓練中における戦略的な設計(mid-training design)によって、巨大な規模を必要とせずに、顕著な能力ギャップを埋めることができることが示された。これにより、大規模インフラを保有しない組織でも、最先端レベルの多モーダル推論を実現可能となる。本研究では、モデルのチェックポイント、すべての訓練手順(training recipes)、および評価プロトコルをMITライセンスの下で公開し、オープンソース研究の発展に貢献することを目的としている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
アプリエル-1.5-15b-シンカー | 論文 | HyperAI超神経