Command Palette
Search for a command to run...
Daya Guo Dejian Yang Haowei Zhang Junxiao Song Peiyi Wang et al

要約
一般的推論は、人工知能(AI)分野において長年にわたり取り組まれてきた困難な課題である。近年、大規模言語モデル(LLM)1,2やチェーン・オブ・シンキング(CoT)プロンプティング3といった革新が、基礎的な推論タスクにおいて顕著な成果を上げている。しかし、こうした成功は、膨大な人間によるラベル付きの推論例に強く依存しており、モデルの能力はより複雑な問題に対しては依然として不十分である。本研究では、人間がラベル付けした推論経路を一切必要とせず、純粋な強化学習(RL)によってLLMの推論能力を促進可能であることを示す。提案するRLフレームワークは、自己反省や検証、動的戦略の適応といった高度な推論パターンの顕在化を促進する。その結果、数学、プログラミングコンテスト、STEM分野など検証可能なタスクにおいて、従来の人間の示例に基づく教師あり学習で訓練されたモデルを上回る優れた性能を達成した。さらに、大規模モデルが顕在化するこうした推論パターンは、系統的に小規模モデルの推論能力の指導および強化に活用可能である。