Command Palette

Search for a command to run...

1ヶ月前

Fathom-DeepResearch:SLM向けの長期視野情報検索および統合の可能性を解き放つ

Shreyas Singh Kunal Singh Pradeep Moturi

Fathom-DeepResearch:SLM向けの長期視野情報検索および統合の可能性を解き放つ

要約

ツール統合型推論は、エージェント型アプリケーションを実現する上で重要な研究テーマとして浮上している。その中でも、複雑かつオープンエンドな情報探索タスクにおいて優れた性能を発揮する点から、DeepResearchエージェントが注目を集めている。本研究では、2つの専門的モデルから構成されるエージェントシステム「Fathom-DeepResearch」を提案する。第一のモデルは、Qwen3-4Bをベースに訓練され、リアルタイムのウェブ検索とターゲットページへの精密な問い合わせを通じて証拠に基づく調査を最適化したDeepSearchモデルである「Fathom-Search-4B」である。このモデルの訓練には以下の3つの革新を統合している。(i) 多エージェント自己対戦により生成された5,000サンプルからなるDUETQAデータセット。このデータセットは、ウェブ検索に厳密に依存する仕組みと、多様な情報源への根拠付けを強制する設計を採用している。(ii) GRPOのオーバーヘッドゼロ拡張であるRAPO。この手法は、カリキュラムプリューニング、報酬意識的なアドバンテージスケーリング、およびプロンプトごとのリプレイバッファを用いて、検証可能な報酬を伴う複数ターン強化学習の安定性を向上させる。(iii) 各ツール呼び出しを認知行動と限界効用に基づいて分類する制御可能なステップレベル報酬。これにより、検索の幅、深さ、時間的展望(ホライゾン)を明示的に制御可能となる。これらの改良により、必要に応じて20回以上のツール呼び出しを信頼性高く延長することが可能になった。第二のモデルは、Qwen3-4Bをベースに訓練された「Fathom-Synthesizer-4B」であり、複数ターンにわたるDeepSearchの履歴を、構造的かつ引用密度の高いDeepResearchレポートに変換し、包括的な要約を実現する。DeepSearchベンチマーク(SimpleQA、FRAMES、WebWalker、Seal0、MuSiQue)およびDeepResearch-Benchにおける評価結果から、本システムはオープンウェイト(open-weights)カテゴリにおいて最先端の性能を達成するとともに、HLE、AIME-25、GPQA-Diamond、MedQAといった多様な推論タスクに対しても優れた汎化能力を示した。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Fathom-DeepResearch:SLM向けの長期視野情報検索および統合の可能性を解き放つ | 論文 | HyperAI超神経