HyperAIHyperAI

Command Palette

Search for a command to run...

中国の深層学習モデルDeepSeek-R1の開発秘話が論文で明かされ、強化学習による推論力向上の仕組みと、AIが試行錯誤で思考過程を学ぶ仕組みが解明された。

中国のAI企業DeepSeekが開発した大規模言語モデル「R1」は、1月の発表時に米国株式市場の急落を引き起こすほどのインパクトをもたらした。このモデルの成功の鍵は、他の大規模言語モデル(LLM)の出力を学習することではなく、独自の強化学習(RL)手法にあったと、同社はNature誌に掲載された論文で明らかにした。R1は数学やプログラミングなど「推論」タスクに特化しており、オープンウェイトで誰でもダウンロード可能。Hugging Faceでは1090万回のダウンロードを記録し、最も人気のあるオープンモデルとなった。トレーニングコストは29万4000ドルと、米国企業が数千万ドルを投じるモデルと比べて大幅に低コスト。この低コスト実現の背景には、Nvidia H800チップ(米国輸出規制で中国向け販売禁止)を512台使用した効率的なインフラと、人間の例示に依存しない「純粋な強化学習」の採用がある。 DeepSeekの主な革新は、モデルに「正解」を出すことを報酬として与えることで、自己の推論戦略を発展させさせた点にある。従来の方法では、人間がステップバイステップの解説を提供する「チェーン・オブ・トゥーキング(CoT)」が主流だったが、R1はそれを不要にした。代わりに、モデル自身が正解を導くまでの試行錯誤を促し、その過程を「自己評価」する仕組み(グループ相対的ポリシー最適化:GRPO)を採用。これにより、モデルは「検証」「再考」「代替案の探索」などの高度な推論行動を自発的に獲得。数学競技会AIME2024では、初期の正解率15.6%から77.9%まで向上し、人間の参加者平均を上回る性能を達成した。 R1は、人間の思考パターンを模倣するのではなく、新たな非人間的推論経路を探索できる可能性を示している。ただし、出力は英語と中国語が混在するなど読みづらさや、単純な質問にも過剰に長く回答する「過剰思考」の問題も指摘されている。これらの課題を解決するため、R1は多段階学習パイプライン(推論強化→拒否サンプリング→人間の好みに合わせた微調整)を経て、推論力と自然な会話能力を両立。最終的なR1は、人間の好みに合わせた回答も可能になり、AlpacaEval2.0では25%、Arena-Hardでは17%のスコア向上を達成した。 Nature誌による査読プロセスは、LLMの透明性と安全性の向上に向けた前例となる。専門家は「モデルのリスクを評価するには、こうした公開プロセスが不可欠」と評価。一方で、中国政府との関係性を懸念する声もあり、特定の政治的テーマに対するコード生成の差異が報告されている。しかし、DeepSeekはモデルの安全性を中程度と評価し、追加のリスク制御システムで安全性を強化している。R1の成功は、人間の注釈に頼らず、計算資源と適切な報酬設計だけで高度な推論能力を育む可能性を示した。今後の課題は、ツール利用やトークン効率の改善、複数言語の混在対策、そして報酬設計が困難な複雑なタスクへの拡張である。

関連リンク