HyperAI超神経
2日前

SPIRAL: ゼロサムゲームにおける自己対戦が、マルチエージェント・マルチターン強化学習を介した推論を奨励する

Bo Liu, Leon Guertler, Simon Yu, Zichen Liu, Penghui Qi, Daniel Balcells, Mickel Liu, Cheston Tan, Weiyan Shi, Min Lin, Wee Sun Lee, Natasha Jaques
SPIRAL: ゼロサムゲームにおける自己対戦が、マルチエージェント・マルチターン強化学習を介した推論を奨励する
要約

最近の強化学習における進歩は、言語モデルが検証可能な報酬を持つタスクでの学習を通じて洗練された推論能力を発展させることができることを示しています。しかし、これらのアプローチは人間がキュレーションした問題と解答のペアやドメイン固有の報酬設計に依存しています。本研究では、SPIRAL(Self-Play Reinforcement And Learning)という自己対戦フレームワークを導入します。このフレームワークでは、モデルが自己改良版との多ターン、ゼロサムゲームで対戦することで学習し、人間の監督を必要としません。SPIRALは、自己対戦を通じてモデルが常に強力な相手に対応しなければならないため、徐々に難易度が高まる無限のカリキュラムを生成します。大規模な自己対戦学習を実現するために、完全オンラインの多ターン・多エージェント強化学習システムをLLM(Large Language Models)向けに実装し、多エージェント学習の安定化のために役割条件付きアドバンテージ推定(Role-Conditioned Advantage Estimation, RAE)を提案しました。SPIRALを使用してゼロサムゲームでの自己対戦を行うことで、広範囲にわたる推論能力の向上が見られました。KuhnポーカーのみでQwen3-4B-Baseを訓練すると、数学では8.6%、一般的な推論では8.4%の改善が達成され、25,000件の専門家によるゲーム軌道データでのSFT(Supervised Fine-Tuning)よりも優れた結果を示しました。分析によると、この転移は3つの認知パターン:系統的な分解、期待値計算、個別ケース分析を通じて起こることが明らかになりました。複数ゲーム(ティックタックトウ、Kuhnポーカー、シンプルネゴシエーション)での訓練はさらに性能を向上させます。各ゲームは異なる推論力を発展させるためです。また、強力な推論モデル(DeepSeek-R1-Distill-Qwen-7B)に対してSPIRALを適用しても平均2.0%の改善が得られました。これらの結果は、ゼロサムゲームが自然に転移可能な推論能力を開発することを示しており、自律的な推論開発において有望な方向性であることを指摘しています。