Command Palette

Search for a command to run...

Back to Headlines

ロールアウト規模を拡大することで強化学習の性能限界を突破——BroRLが実現する効率的かつ持続的な推論向上

12日前

大規模言語モデル(LLM)の強化学習(RL)における性能の壁を突破する新たなアプローチ「Broadened Reinforcement Learning(BroRL)」が、NVIDIA Researchによって発表された。従来の「延長強化学習(ProRL)」では、学習ステップを延長することでモデルの推論能力を高める試みが行われたが、3,000ステップを過ぎると性能の向上が止まり、逆に劣化する現象が確認された。この「パフォーマンスの plateau(平坦化)」は、RLそのものの限界ではなく、探索戦略の不十分さに起因する可能性があると指摘された。 BroRLは、学習ステップの延長ではなく、「ロールアウト(探索)のスケーリング」に着目。1回のプロンプトに対して、従来の16回から512回にまで探索パスを増やすことで、モデルがより広範な解空間を探索できるようにした。理論的に、多数のロールアウトにより、未探索領域によるノイズが平均化され、学習信号が安定化。これにより、モデルは「パラメータの壁」を越えて持続的な性能向上を実現した。 実験では、ProRLv2モデルにBroRLを適用した結果、3,000ステップ以降の性能停滞が解消され、Math、Code、Reasoning Gymの3つのベンチマークで顕著な向上が確認された。特に、98.1時間の学習でProRLの最終成績を上回り、計算時間は約35時間短縮。1.5Bパラメータのモデルとして、Math(63.66)、Code(56.64)、Reasoning Gym(63.40)の各分野でSOTA(最良)を達成。 また、BroRLは計算効率も優れており、出力トークン数が少なく、冗長な推論が減るため、精度対トークンの効率が向上。推論の質が長さに依存しなくなる点で、従来のステップスケーリングとは本質的に異なるアプローチである。 この成果は、強化学習の限界は「学習の長さ」ではなく「探索の広がり」にあることを示唆。開発者は、性能が止まった際に「さらに長く学習する」のではなく、「より広く探索する」ことが鍵となる。BroRLモデルはHugging Face経由で公開されており、研究者や開発者が利用可能。

Related Links

ロールアウト規模を拡大することで強化学習の性能限界を突破——BroRLが実現する効率的かつ持続的な推論向上 | 最新ニュース | HyperAI超神経