Command Palette
Search for a command to run...
Kaiyan Zhang Yuxin Zuo Bingxiang He Youbang Sun Runze Liu et al

要約
本稿では、大規模言語モデル(LLM)における推論能力を向上させるための強化学習(RL)の最新の進展を調査する。RLは、数学やプログラミングなど複雑な論理的タスクに特に対応する能力を高める点で、LLMの能力限界を大きく前進させることに顕著な成果を上げており、その結果、LLMを論理推論モデル(LRM)へと変革する基盤的アプローチとしてRLが注目されている。近年の急速な進展に伴い、LRMに対するRLのさらなるスケーリングには、計算リソースにとどまらず、アルゴリズム設計、学習データ、インフラ構築といった基礎的な課題が顕在化しつつある。このような状況を踏まえ、本分野の発展履歴を再評価し、その進展軌跡を検証し、人工超知能(ASI)への向かうRLのスケーラビリティを高めるための戦略を模索することは、まさに適時である。特に、DeepSeek-R1の公開以降に注目される、LLMおよびLRMにおける推論能力向上を目的としたRL研究に焦点を当て、基礎的構成要素、核心的な課題、学習リソース、および下流アプリケーションの観点から分析を行い、この急速に進化する分野における将来の機会と方向性を明らかにすることを目的とする。本レビューが、より広範な推論モデルにおけるRL研究の発展を促進することを期待する。