Command Palette
Search for a command to run...
共有はケアを生む:集団強化学習による効率的な言語モデル後期訓練
共有はケアを生む:集団強化学習による効率的な言語モデル後期訓練
概要
強化学習(RL)を用いた事後訓練言語モデル(LM)は、教師あり微調整を用いずに複雑な推論能力を向上させることができることを、DeepSeek-R1-Zeroが実証している。しかし、LMに対して効果的にRLを活用するためには、推論のスケーリングを実現するための大幅な並列化が不可欠であり、これにより遅延、メモリ使用量、信頼性といった非自明な技術的課題に加え、継続的な財務コストの増大が伴う。本研究では、完全に分散型かつ非同期的なRL事後訓練アルゴリズムである「Swarm sAmpling Policy Optimization(SAPO)」を提案する。SAPOは、異種の計算ノードから構成される分散ネットワークを想定しており、各ノードは自身のポリシーモデルを管理しつつ、ネットワーク内の他のノードと「ロールアウト(rollouts)」を共有する。このアーキテクチャでは、遅延やモデルの均一性、ハードウェアの同一性といった明示的な仮定を必要とせず、必要に応じてノードが孤立して動作することも可能である。その結果、従来のRL事後訓練におけるスケーリングにおける一般的なボトルネックを回避しつつ、新たな可能性の実現(および促進)も可能となる。ネットワーク全体にわたって共有されたロールアウトをサンプリングすることで、学習プロセスに「閃き(Aha moments)」を伝播させ、学習の自己強化を実現する。本論文では、制御実験においてSAPOが最大94%の累積報酬向上を達成したことを示す。また、オープンソースデモ期間中に、Gensynコミュニティのメンバーが多様なハードウェアとモデルを用いてアルゴリズムを実行した数千ノード規模のネットワークを用いた実験から得られた知見も共有する。