Command Palette
Search for a command to run...
Yujun Zhou Zhenwen Liang Haolin Liu Wenhao Yu Kishan Panaganti Linfeng Song Dian Yu Xiangliang Zhang Haitao Mi Dong Yu

要約
大規模言語モデル(LLM)は、検証可能な報酬を用いた強化学習(RLVR)によりますます訓練されており、現実世界での展開においては、ラベルや外部の評価者を一切用いずに自己改善可能なモデルが求められている。既存のラベルフリー手法である信頼度最小化、自己一貫性、多数決目的関数などは学習の安定性を高めるが、探索の範囲を徐々に縮小させ、エントロピーの崩壊——生成結果が短くなり、多様性が失われ、脆くなる——を引き起こす。従来のTest-Time Reinforcement Learning(TTRL)のようなアプローチは、現在のラベルなしデータセットに対してモデルを適応させるにとどまるが、本研究の目的はより広範である:モデルの固有の探索能力および一般化能力を損なうことなく、普遍的な改善を可能にする、すなわち「進化」を実現することである。本研究ではこの問題を形式化し、ラベルフリー環境下で安定性と多様性を両立するシンプルなルールとして、EVolution-Oriented and Label-free Reinforcement Learning(EVOL-RL)を提案する。EVOL-RLは、多数決による回答を安定した基準(選択)として保持しつつ、既に生成された内容と意味空間上で異なる推論を示す応答を好む「新奇性を意識した報酬」を追加することで、多様性を促進する。GRPOを用いて実装したEVOL-RLは、強い信号を保持するための非対称クリッピングと、探索を継続するためのエントロピー正則化項も用いる。この「多数決による選択+新奇性による多様性」の設計により、エントロピーの崩壊を防ぎ、より長く情報豊かな思考の連鎖を維持し、pass@1およびpass@nの両方で性能を向上させる。EVOL-RLは、多数決のみを用いるTTRLベースラインを一貫して上回る。例えば、ラベルフリーなAIME24データセットで訓練した場合、Qwen3-4B-BaseのAIME25におけるpass@1はTTRLの4.6%から16.4%へ、pass@16は18.5%から37.9%へと向上する。EVOL-RLは多様性の崩壊を防ぐだけでなく、ドメイン間での強力な一般化能力(例:GPQA)をも引き出す。さらに、EVOL-RLがRLVR設定においても性能向上をもたらすことを実証し、その広範な適用可能性を示している。