Command Palette
Search for a command to run...

要約
大規模言語モデル(LLM)に基づくウェブエージェントは、知識集約型タスクにおいて優れた性能を発揮する一方で、ReActなどのアーキテクチャではコンテキストウィンドウの制限により性能が制約される。複数のエンティティを含み、相互に関連する複雑な関係性と高い不確実性を伴うクエリは、完全な解決に至る前に膨大な検索サイクルを必要とし、迅速にコンテキスト予算を消費してしまう。この課題を克服するため、本研究では周期的なコンテキスト要約を通じて無限に探索を可能にする新しいアーキテクチャ「ReSum」を提案する。ReSumは、増大するインタラクション履歴をコンパクトな推論状態に変換し、過去の発見を維持しつつ、コンテキスト制約を回避する。アーキテクチャの適応のため、本研究では「ReSum-GRPO」を提案。これは、セグメント化された軌道学習とアドバンテージブロードキャストを組み合わせたGRPOを統合し、エージェントが要約条件付きの推論に慣れることを促進する。3つのベンチマークにおいて、異なる規模のウェブエージェントを用いた広範な実験の結果、ReSumはReActに対して平均で4.5%の絶対的改善を達成し、さらにReSum-GRPOによる学習を施すことで最大8.2%のさらなる向上が確認された。特に、わずか1,000件の学習サンプルで訓練されたWebResummer-30B(WebSailor-30BのReSum-GRPO版)は、BrowseComp-zhで33.3%のPass@1、BrowseComp-enで18.3%のPass@1を達成し、現存するオープンソースウェブエージェントを上回る性能を示した。