SSRL:自己探索強化学習

大規模言語モデル(LLM)が強化学習(RL)におけるエージェント型検索タスクの効率的なシミュレータとして機能する可能性を検討し、外部検索エンジンとの高コストな相互作用に依存する度合いを低減することを目指す。そのため、まず構造化されたプロンプトと繰り返しサンプリングを用いて、LLMの内在的検索能力を定量化する手法を提案する。これを「Self-Search」と呼ぶ。実験結果から、LLMは推論リソース(インフェンス予算)に対して強いスケーリング特性を示し、特に挑戦的なBrowseCompタスクを含む質問応答ベンチマークにおいて、高いpass@kスコアを達成することが明らかになった。これらの観察を基に、形式に基づくおよびルールに基づく報酬を用いてLLMのSelf-Search能力を強化する「Self-Search RL(SSRL)」を導入する。SSRLにより、モデルは外部ツールにアクセスせずに、内部で知識の利用を反復的に最適化することが可能となる。実証的評価の結果、SSRLで訓練された方策モデルは、検索駆動型RLの学習に向けたコスト効率的かつ安定した環境を提供し、外部検索エンジンへの依存を低減するとともに、堅牢なシミュレーションから現実への転移(sim-to-real transfer)を促進することが示された。本研究から以下の結論を得た:1)LLMには高精度な性能を達成するために効果的に引き出せる世界知識が内在している;2)SSRLは内部知識を活用することで幻覚(hallucination)を低減する可能性を示している;3)SSRLで訓練されたモデルは、追加の調整なしに外部検索エンジンとスムーズに統合可能である。これらの知見は、LLMがよりスケーラブルなRLエージェントの訓練を支援する可能性を示している。