11日前

テンターンを越えて:大規模非同期強化学習を用いた長期的エージェント検索の解禁

Jiaxuan Gao, Wei Fu, Minyang Xie, Shusheng Xu, Chuyi He, Zhiyu Mei, Banghua Zhu, Yi Wu
テンターンを越えて:大規模非同期強化学習を用いた長期的エージェント検索の解禁
要約

近年、LLMベースのエージェントにおける進展は、外部ツールを統合することで、複雑かつ知識集約的なタスクを処理する優れた能力を示している。さまざまなツールの中でも、検索ツールは膨大な外部知識にアクセスする上で中心的な役割を果たしている。しかし、現在のオープンソースエージェントは、曖昧なクエリを解消し、正確な検索を生成し、検索結果を分析し、徹底的な探索を実行する「エキスパートレベルの検索インテリジェンス(Search Intelligence)」にまだ到達できていない。既存のアプローチはスケーラビリティ、効率性、およびデータ品質の点で限界がある。たとえば、既存のオンライン強化学習(RL)手法におけるターン数の制限が小さい(例:≤10)ため、複雑な戦略の学習が制限される。本論文では、検索エージェントのスケールアップされた強化学習(RL)訓練を可能にするオープンソースプロジェクト「ASearcher」を紹介する。本研究の主な貢献は以下の通りである:(1)スケーラブルな完全非同期RL訓練方式を採用し、長時間スパンの検索を実現しつつ、高い訓練効率を維持する。 (2)プロンプトベースのLLMエージェントを用いて、高品質かつ挑戦的な質問・回答(QA)ペアを自動生成し、大規模なQAデータセットを構築する。RL訓練を通じて、本研究で提案するプロンプトベースのQwQ-32Bエージェントは顕著な性能向上を達成し、xBenchおよびGAIAにおいてそれぞれ46.7%および20.8%のAvg@4スコア向上を実現した。特に注目すべきは、本エージェントが極めて長時間の探索を実現している点であり、訓練中にツール呼び出し回数が40回を超え、出力トークン数が15万を超えるケースも確認された。シンプルなエージェント設計であり、外部LLMを用いないにもかかわらず、ASearcher-Web-QwQはxBenchでAvg@4スコア42.1、GAIAで52.8を達成し、既存のオープンソース32B規模エージェントを上回った。本研究では、モデル、訓練データ、コードをすべてGitHub(https://github.com/inclusionAI/ASearcher)にてオープンソースとして公開する。