トレーニング費用 294,000 ドルで、DeepSeek-R1 は Nature の表紙に掲載され、権威ある雑誌の査読を通過して好評を得た初の主流の大規模モデルとなりました。

9月17日、DeepSeek-R1に関する研究成果がNature誌の表紙に掲載され、世界中の学術界で激しい議論が巻き起こりました。実際、関連する研究成果は今年1月にarXivでプレプリントとして既に公開されていました。しかし、この論文が Nature に掲載されることの意義は、この権威ある雑誌による査読を受けたということにあります。つまり、外部の専門家は一方的に情報を受け取るだけでなく、独立した第三者(編集者)の監督と管理の下での共同作業を通じて著者チームに質問したり、追加の情報を要求したりすることができ、これは業界では初めてのことです。
さらに重要なのは、1月に発表されたプレプリント論文では研究手法とDeepSeek-R1の一連の評価ベンチマークにおける性能が概説されていたのに対し、今回正式に発表された論文では、モデルの学習コストがさらに明らかにされている点だ。Nature Newsの報道によると、DeepSeek-R1 のトレーニング コストはわずか 294,000 米ドルに相当します。DeepSeek は、R1 モデルのベースとなる LLM に約 600 万ドルを投資していますが、その総コストは、業界で一般にヘッド モデルのトレーニングに必要と考えられている数千万ドルよりもはるかに低いものです。
* プレプリントアドレス:
https://hyper.ai/cn/papers/2504.07128

DeepSeekによると、DeepSeek-R1-Zeroのトレーニングには648基のH800 GPUが使用され、約198時間を要しました。さらに、DeepSeek-R1のトレーニングにも648基のH800 GPUが使用され、約4日間(80時間)かかりました。SFTデータセットの構築にも約5,000GPU時間が費やされました。具体的なコストは上の図に示されています。
大規模強化学習は推論能力を向上させる
大規模モデルの推論能力の重要性は自明であり、産業界における主要な研究方向となっています。しかし、事前学習段階で推論能力を獲得するには、多くの場合、膨大な計算リソースが必要になります。この点に関して、いくつかの研究では、CoT(Chain-of-Thought)プロンプトを通じてLLM能力を効果的に強化できることや、学習後段階で高品質な多段階推論軌跡を学習することでパフォーマンスをさらに向上できることが示されています。これらの手法は効果的ですが、依然として明らかな限界があります。たとえば、手動による注釈に依存する推論プロセスでは、スケーラビリティが低下し、認知バイアスが生じます。さらに、このモデルは人間の思考方法を模倣することに制限されているため、そのパフォーマンスは本質的に人間が提供する例によって制約され、人間の思考パターンを超えるより優れた推論パスを探索することができません。
これに対処するため、DeepSeekはDeepSeek-V3 Base8をベースに、強化学習フレームワークとしてグループ相対ポリシー最適化(GRPO)を採用し、強化学習学習前の従来の教師ありファインチューニング(SFT)段階を省略しました。この設計上の選択は、チームの以下の仮定に基づいています。人工的に定義された推論モードはモデルの探索を制限する可能性がありますが、制限のない RL トレーニングは LLM における新しい推論機能の出現を促進できます。
これを基に、研究チームは多様で複雑な推論行動を示すDeepSeek-R1-Zeroを開発しました。推論問題を解くために、このモデルは検証、考察、そして様々な解決策の探索を各回答に組み込むことで、より長い回答を生成する傾向があります。研究チームはモデルに推論方法を明示的に教えたわけではありませんが、しかし、それでも RL を通じてより優れた推論戦略を学習することに成功しました。研究チームは、グループ相対ポリシー最適化(GRPO)を使用しました。これは、元々は近似ポリシー最適化(PPO)の学習プロセスを簡素化し、リソース消費を削減するために提案されたアルゴリズムです。このアルゴリズムは、ポリシーモデルと同じサイズの評価モデルを必要とせず、グループスコアからベースラインを直接推定します。
さらに、チームはルールベースの報酬システムを用いて精度を計算し、報酬をフォーマットしました。GRPOと報酬設計に基づき、DeepSeek-R1-Zeroがまず推論プロセスを生成し、次に最終的な答えを生成することを要求するテンプレートを設計しました。トレーニング中は、プロンプトではなく、具体的な推論質問が使用されました。

具体的には、ユーザーの質問を受けた後、モデルはまず「考える」ラベルで推論プロセスを出力し、次に「答える」ラベルで最終的な答えを与えることで、強化学習において効果的な推論パスを自律的に探索できるようになります。研究チームは、ルールベースの報酬システムを使用して、実験で DeepSeek-R1-Zero によって提供された回答を評価し、トレーニング プロセスの安定性とスケーラビリティを確保しました。
評価結果によると、AIME 2024数学コンテストにおけるDeepSeek-R1-Zeroのpass@1スコアは、初期の15.6%から77.9%に大幅に向上しました。自己矛盾のないデコード戦略を採用すると、精度はさらに86.7%に向上し、人間のプレイヤーの平均レベルを超えます。
このモデルは、数学的なタスクに加えて、プログラミングコンテストや大学院レベルの生物学、物理学、化学の問題でも優れたパフォーマンスを発揮し、大規模言語モデルの推論能力の向上における強化学習の有効性を完全に検証しました。

さらに、強化学習において、DeepSeek-R1-Zeroは訓練を通じて徐々に推論能力が強化されるだけでなく、明確な自己進化特性も示しました。実験データによると、モデルが内的適応によって駆動される場合、訓練中に平均推論長が継続的に増加し、推論パスが継続的に修正されることが示されました。推論プロセス中に既存の推論ステップを積極的に一時停止、レビュー、修正することで、反射的な推論と代替ソリューションの体系的な探索が可能になりました。

さらに、読みにくさや言語の混在といった課題に対処するため、研究チームはDeepSeek-R1を開発し、DeepSeek-R1-Zeroの読みにくさや言語の混在といった問題を解消しました。そのワークフローは以下のとおりです。* DeepSeek-V3をベースに、人間の思考と一致する会話型のコールドスタートデータを収集し、DeepSeek-R1 Dev1に入力します。* DeepSeek-R1 Dev1は、そのデータに基づいて強化学習とサンプリングを行い、DeepSeek-R1 Dev2は推論データセットと非推論データセットをSFTプロセスに組み込みます。* DeepSeek-R1 Dev3は、第2段階の強化学習を推進し、モデルの有用性と無害性を高め、最終的にDeepSeek-R1に回答を出力します。

実験結果から、DeepSeek-R1-Zero および DeepSeek-R1 Dev1 と比較すると、DeepSeek-R1 は各開発段階で命令実行パフォーマンスが大幅に向上し、IF-Eval および Arena-Hard ベンチマークで高いスコアを獲得しました。

権威あるジャーナルの査読を通過した最初の大規模モデル
DeepSeek-R1の研究論文は、査読を受けた最初のLLMモデルとして、Nature誌の表紙を飾りました。Nature誌は「LLmsをお持ちください:AIモデルにとって査読が有効な理由」という記事の中で、AI業界におけるマーケティングの誇大宣伝に対する効果的な対策として査読が機能していると指摘しています。主流となっている大規模AIモデルのほとんどは、いまだ独立した査読を受けていませんが、「DeepSeekによってようやくそのギャップが埋められた」のです。

この点について、アリゾナ大学の研究者であり、AAAIの元会長であるスッバラオ・カンバンパティ氏は、ピアレビューに参加した経験から、これは良い傾向だと考えていると述べました。彼は、より多くの最先端のモデル開発者が彼らの後を継ぎ、AIモデルのピアレビューに関する技術的な詳細を共有することを期待しています。

米国のテクノロジーメディアWind Infoは、1月に公開された初期バージョンと比較して、この論文ではモデルの学習プロセスに関するより詳細な情報が公開され、初期の蒸留問題に直接対処していると報じました。DeepSeek-R1は、将来、より透明性が高く標準化されたAI研究の実践のためのモデルを提供すると言えるでしょう。

参考文献:
1. https://www.nature.com/articles/d41586-025-03015-6
2. https://www.nature.com/articles/d41586-025-02979-9
3. https://www.nature.com/articles/s41586-025-09422