Command Palette
Search for a command to run...

要約
大規模言語モデル(LLM)に基づくウェブエージェントは、情報探索において大きな可能性を示しているが、長期的なタスクにおけるその有効性は、コンテキスト管理における根本的なトレードオフによって制限されている。現在主流のReActベースのエージェントは、ノイズが多くて原始的な履歴が蓄積されることによりコンテキストの飽和を起こしやすく、一方で各ステップで履歴全体を固定的に要約する手法は、重要な詳細情報を不可逆的に失うリスクを伴う。これらの課題に対処するために、我々は「AgentFold」という新たなエージェントパラダイムを提案する。この手法は、人間の記憶の後向き統合(retrospective consolidation)という認知プロセスに着想を得ており、コンテキストを単なる受動的な記録ではなく、能動的に設計・調整可能な動的な認知作業空間として捉える。各ステップにおいて、AgentFoldは「折りたたみ(folding)」操作を学習し、履歴の軌跡を複数スケールで管理する。具体的には、微細な詳細を保持するための粒度の細かい要約(granular condensation)や、複数ステップにわたるサブタスク全体を抽象化する深い統合(deep consolidation)を実行できる。主要なベンチマークにおける実験結果は顕著である。継続的な事前学習や強化学習を用いずに、単純な教師あり微調整(supervised fine-tuning)により、本研究のAgentFold-30B-A3BエージェントはBrowseCompで36.2%、BrowseComp-ZHで47.3%の精度を達成した。特に注目すべきは、この性能が、規模がはるかに大きなオープンソースモデル(例:DeepSeek-V3.1-671B-A37B)を上回り、あるいはそれと同等に達しているだけでなく、OpenAIのプロプライエタリエージェントo4-miniをも上回っている点である。