概要

長期的なエージェントタスクに対するポストトレーニングには、計算効率と一般化能力の間に緊張関係が存在する。教師あり微調整（SFT）は計算効率が優れているが、ドメイン外（OOD）での性能低下に陥りやすい。一方、エンドツーエンド強化学習（E2E RL）は OOD 能力を維持する一方で、多ターンにわたるオンポリシーロールアウトが必要となるため、計算コストが大幅に増大する。本研究では、既存の SFT 軌跡を基盤とし、SFT の計算効率と E2E RL の OOD 精度を両立する新たなフレームワーク「PivotRL」を提案する。PivotRL は以下の 2 つの主要メカニズムに依存する。第一に、局所的なオンポリシーロールアウトを実行し、サンプルされた行動の結果に高い分散を示す情報量の多い中間ターン（ピボット）をフィルタリングする。第二に、厳密な文字列一致を SFT データのデモンストレーションに求めるのではなく、機能的に等価な行動に対して報酬を付与する。理論的に、これらのメカニズムは自然勾配ノルムが大きな強力な学習信号を誘発しつつ、トレーニングタスクと無関係な行動に対する方策の確率順序を最大限に保持することを示す。同一データに対する標準的な SFT と比較した結果、PivotRL は 4 つのエージェントドメインにおいて平均でドメイン内精度が 4.17% 向上し、非エージェントタスクにおける OOD 精度が 10.04% 向上した。特にエージェント型コーディングタスクにおいては、E2E RL と同等の精度を達成しつつ、ロールアウトターン数を 4 分の 1 に削減することに成功した。PivotRL は NVIDIA の Nemotron-3-Super-120B-A12B に採用され、生産規模のエージェント型ポストトレーニングの中核を担っている。

ソースPDF