Command Palette
Search for a command to run...

要約
強化学習(RL)は、近年、大規模言語モデル(LLM)の整合化および強化の中心的枠組みとして注目されている。しかしながら、過去の方策から得られた古くなったデータを用いて学習を行うオフポリシー設定においてRLを適用することは、サンプル効率を向上させる一方で、依然として課題をはらんでいる。具体的には、方策のエントロピーが急激に低下し、最適化が不安定になり、場合によっては収束不能に陥る現象が生じる。本研究では、理論的・実証的分析を通じて、以下の2つの重要な知見を明らかにした。(i)最適化の不均衡:負のアドバンテージを持つサンプルが方策勾配の主導的要因となり、有用な行動の発現を抑制し、勾配爆発のリスクを高める現象;(ii)エントロピークリッピング則の導出:PPOに類する目的関数における固定クリッピング機構は、エントロピーを増加させる更新を体系的に阻害しており、探索の犠牲を払って過剰に活用(過剰利用)に偏った方策へと導く。これらの知見を基盤とし、本研究では、動的クリッピング境界を適応的に調整することで、正の貢献と負の貢献のバランスを再調整し、エントロピーを維持し、RLの最適化を安定化する、シンプルかつ効果的な手法「適応的クリッピングを用いたバランス型方策最適化(BAPO)」を提案する。多様なオフポリシー環境、すなわちサンプルリプレイや部分的ロールアウトを含む設定において、BAPOは高速かつ安定した、かつデータ効率の高い学習を実現する。AIME 2024およびAIME 2025のベンチマークにおいて、7BパラメータのBAPOモデルはSkyWork-OR1-7Bなど、公開されている同規模のモデルを上回り、32BパラメータのBAPOモデルは、同規模のモデルの中でも最先端の性能を達成するだけでなく、o3-miniやGemini-2.5-Flash-Thinkingといった先進的なプロプライエタリシステムすら上回る成果を示した。