HyperAIHyperAI

Command Palette

Search for a command to run...

ドクター・ゼロ:学習データを必要としない自己進化型検索エージェント

Zhenrui Yue Kartikeya Upasani Xianjun Yang Suyu Ge Shaoliang Nie Yuning Mao Zhe Liu Dong Wang

Abstract

高品質なデータの入手がますます困難になる中、データフリーの自己進化(data-free self-evolution)が有望なアプローチとして注目されている。このアプローチにより、大規模言語モデル(LLM)は複雑な問題を自律的に生成・解決することで、推論能力を向上させることができる。しかし、マルチターン検索エージェントは、データフリーの自己進化において、質問の多様性が限られ、かつ複数ステップの推論およびツール利用に膨大な計算資源を要するため、困難に直面している。本研究では、訓練データを一切必要としない検索エージェントの効果的な自己進化を可能にするフレームワーク「Dr. Zero」を提案する。特に、同じベースモデルから初期化されたソルバーを訓練するための多様な質問を生成する「プロポーザー」と、そのソルバーの進化に応じて徐々に難易度が高くなるが解けるタスクを生成するようインセンティブを与える自己進化フィードバックループを設計した。これにより、両エージェントの改善を自動的に促進するカリキュラムが構築される。さらに、訓練効率を向上させるために、ホップグループ化相対方策最適化(Hop-grouped Relative Policy Optimization, HRPO)を導入する。この手法は、構造的に類似した質問をクラスタリングし、グループレベルのベースラインを構築することで、各クエリの難易度や解法可能性を評価する際のサンプリングオーバーヘッドを効果的に低減する。その結果、HRPOはソルバーの訓練に必要な計算リソースを大幅に削減しつつ、性能や安定性を損なわない。広範な実験結果から、データフリーなDr. Zeroは完全に教師ありの検索エージェントと同等、あるいはそれを上回ることを示しており、複雑な推論および検索能力が自己進化のみによっても発現可能であることを実証した。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています