Command Palette
Search for a command to run...

要約
深層研究エージェントの最近の進展は、外部情報源に対する動的推論を通じた自律的知識構築の可能性を示している。しかし、従来のアプローチは、すべての情報を単一の拡張するコンテキスト窓に蓄積する単一文脈(mono-contextual)な枠組みに依存しており、コンテキストの過負荷とノイズの混入が生じ、長時間スパンのタスクにおいてその効果を制限している。本研究では、長時間スパンの研究を戦略的作業空間の再構築を伴うマルコフ意思決定過程(Markov Decision Process)として再定式化する、新しい反復的深層研究パラダイム「IterResearch」を提案する。本手法は、進化するレポートをメモリとして保持し、周期的に知見を統合することで、任意の探索深さにかかわらず一貫した推論能力を維持する。さらに、幾何学的報酬割引と適応的ダウンサンプリングを用いることで、効率的な探索を促進し、安定した分散学習を可能にする「効率意識型方策最適化(Efficiency-Aware Policy Optimization, EAPO)」という強化学習フレームワークを構築した。広範な実験の結果、IterResearchは6つのベンチマークで平均+14.5ppの顕著な性能向上を達成し、最先端の非公開システムとの差を大幅に縮小した。特に、本パラダイムは前例のないスケーラビリティを示し、2048回の相互作用まで拡張可能であり、性能は3.5%から42.5%へと劇的に向上した。また、最先端モデルに対する効果的なプロンプティング戦略としても機能し、ReActと比較して長時間スパンのタスクで最大19.2ppの性能向上を実現した。これらの成果は、IterResearchが長時間スパンの推論に向けた汎用的かつ効果的な解決策であることを示しており、訓練済みエージェントとしての利用にとどまらず、最先端モデルに対するプロンプティング戦略としても高い有効性を発揮することを示している。