Command Palette
Search for a command to run...
Shreyas Singh Kunal Singh Pradeep Moturi

要約
ツール統合型推論は、エージェント型アプリケーションを実現する上で重要な研究テーマとして浮上している。その中でも、複雑かつオープンエンドな情報探索タスクにおいて優れた性能を発揮する点から、DeepResearchエージェントが注目を集めている。本研究では、2つの専門的モデルから構成されるエージェントシステム「Fathom-DeepResearch」を提案する。第一のモデルは、Qwen3-4Bをベースに訓練され、リアルタイムのウェブ検索とターゲットページへの精密な問い合わせを通じて証拠に基づく調査を最適化したDeepSearchモデルである「Fathom-Search-4B」である。このモデルの訓練には以下の3つの革新を統合している。(i) 多エージェント自己対戦により生成された5,000サンプルからなるDUETQAデータセット。このデータセットは、ウェブ検索に厳密に依存する仕組みと、多様な情報源への根拠付けを強制する設計を採用している。(ii) GRPOのオーバーヘッドゼロ拡張であるRAPO。この手法は、カリキュラムプリューニング、報酬意識的なアドバンテージスケーリング、およびプロンプトごとのリプレイバッファを用いて、検証可能な報酬を伴う複数ターン強化学習の安定性を向上させる。(iii) 各ツール呼び出しを認知行動と限界効用に基づいて分類する制御可能なステップレベル報酬。これにより、検索の幅、深さ、時間的展望(ホライゾン)を明示的に制御可能となる。これらの改良により、必要に応じて20回以上のツール呼び出しを信頼性高く延長することが可能になった。第二のモデルは、Qwen3-4Bをベースに訓練された「Fathom-Synthesizer-4B」であり、複数ターンにわたるDeepSearchの履歴を、構造的かつ引用密度の高いDeepResearchレポートに変換し、包括的な要約を実現する。DeepSearchベンチマーク(SimpleQA、FRAMES、WebWalker、Seal0、MuSiQue)およびDeepResearch-Benchにおける評価結果から、本システムはオープンウェイト(open-weights)カテゴリにおいて最先端の性能を達成するとともに、HLE、AIME-25、GPQA-Diamond、MedQAといった多様な推論タスクに対しても優れた汎化能力を示した。