14日前

R-Zero:ゼロデータから自己進化する推論型LLM

Chengsong Huang, Wenhao Yu, Xiaoyang Wang, Hongming Zhang, Zongxia Li, Ruosen Li, Jiaxin Huang, Haitao Mi, Dong Yu
R-Zero:ゼロデータから自己進化する推論型LLM
要約

自己進化型の大規模言語モデル(LLM)は、自身の経験から自発的にタスクを生成・精緻化し、学習を行うことで、超知能へのスケーラブルな道筋を提供する。しかし、現行のこうしたモデルの学習手法は、依然として膨大な人間によるタスクとラベルの収集に大きく依存しており、通常はファインチューニングや強化学習を介して行われる。この点は、人工知能システムが人間の知能を越える能力へと進化する上で、根本的なボトルネックとなっている。この課題を克服するため、本研究では、完全に自律的に初期状態から訓練データを生成するフレームワーク「R-Zero」を提案する。R-Zeroは、単一のベースとなるLLMから出発し、役割の異なる二つの独立したモデル——「チャレンジャー」と「ソルバー」——を初期化する。これらのモデルは別々に最適化され、相互作用を通じて共進化する。チャレンジャーは、ソルバーの能力限界付近のタスクを提示することに対して報酬を受け、一方、ソルバーはチャレンジャーによって提示された難易度が徐々に高まるタスクを解くことに対して報酬を得る。このプロセスにより、事前のタスクやラベルを一切用いずに、ターゲットを絞った自己改善型のカリキュラムが生成される。実証実験の結果、R-ZeroはさまざまなバックボーンLLMにおいて推論能力を顕著に向上させた。例えば、Qwen3-4B-Baseでは、数学推論ベンチマークで+6.49、汎用領域推論ベンチマークで+7.54の向上が確認された。