Command Palette
Search for a command to run...

要約
深い研究システム(Deep research systems)とは、推論、オープンウェブおよびユーザーのファイルに対する検索、ツール利用を連携させることで、複雑かつ多段階のタスクを解決するエージェント型AI(agentic AI)を指す。こうしたシステムは、計画者(Planner)、調整者(Coordinator)、実行者(Executors)からなる階層的アーキテクチャへと進化しつつある。実際の現場では、エンドツーエンドで全スタックを訓練することは現実的ではないため、多くの研究では、検索、ブラウジング、コード実行といったコアツールに接続された単一の計画者(Planner)を訓練するアプローチが採られている。一方で、Supervised Fine-Tuning(SFT)はプロトコルの整合性を保つが、模倣バイアス(imitation bias)や露出バイアス(exposure bias)に苦しんでおり、環境フィードバックの活用が不十分である。また、DPO(Direct Preference Optimization)のような好みの整合化手法は、スキーマや代理指標に依存し、オフポリシー(off-policy)であり、長期的な報酬配分(long-horizon credit assignment)や複数目的間のトレードオフに対して弱い。さらにSFTおよびDPOの課題として、スキーマ設計やラベル付き比較を通じて人間が定義した意思決定ポイントやサブスキルに依存している点が挙げられる。これに対して、強化学習(Reinforcement Learning, RL)は、ツールとの相互作用を重視する閉ループ型研究と整合性が高く、軌道レベルのポリシーを最適化することで、探索行動や回復行動、原理的な報酬配分を可能にし、人間の事前知識や評価者のバイアスへの依存を低減する。本調査は、私たちの知る限り、深い研究システムにおける強化学習の基礎に特化した初の包括的レビューである。本稿では、DeepSeek-R1以降の研究を以下の3つの軸に沿って体系化する:(i)データの合成とキュレーション、(ii)エージェント型研究に向けた強化学習手法(安定性、サンプル効率、長文脈処理、報酬設計および信用配分、多目的最適化、マルチモーダル統合を含む)、(iii)エージェント型強化学習のトレーニングシステムおよびフレームワーク。また、エージェントアーキテクチャと協調メカニズム、評価とベンチマーク(最近のQA、VQA、長文生成、ドメインに基づくツール連携タスクなど)についても網羅する。本調査では、繰り返し現れるパターンを抽出し、インフラ上のボトルネックを明らかにするとともに、強化学習を用いた堅牢で透明性の高い深層研究エージェントの訓練に向けた実践的ガイダンスを提供する。