Command Palette
Search for a command to run...
Genglin Liu Shijie Geng Sha Li Hejie Cui Sarah Zhang Xin Liu Tianyi Liu

要約
マルチモーダルLLMを搭載したエージェントは、近年、ウェブナビゲーションにおいて顕著な能力を示しており、多様な分野にわたり複雑なブラウジングタスクの遂行が可能になっています。しかし、現行のエージェントは繰り返しの誤りに悩まされ、セッション間で過去の経験を学習する能力に欠けており、長期的な堅牢性とサンプル効率が制限されています。本研究では、モデルに依存しない自己進化型フレームワーク「WebCoach」を提案します。このフレームワークは、ウェブブラウジングエージェントに持続的なセッション間メモリを付与することで、再訓練を伴わずに長期計画、反省、継続的学習を向上させます。WebCoachは以下の3つの主要な構成要素から成り立っています:(1) WebCondenser:生のナビゲーションログを要約形式に標準化するモジュール;(2) エクステナルメモリストア:完全な遷移経路をエピソード体験として構造化するモジュール;(3) Coach:類似性と最新性に基づいて関連する体験を検索し、ランタイムフックを介してタスク固有のアドバイスをエージェントに注入するかを判断するモジュール。この設計により、エージェントは自らのネイティブなコンテキスト窓を超え、長期記憶にアクセス可能となり、複雑なブラウジングタスクにおける堅牢性が向上します。さらに、WebCoachは新しいナビゲーション経路からエピソード記憶を継続的に整理・更新することで自己進化を実現し、再訓練なしにエージェントの性能を時間とともに改善可能にします。WebVoyagerベンチマーク上での評価結果から、WebCoachは異なる3種類のLLMバックボーンを用いたブラウザ使用エージェントの性能を一貫して向上させることを示しました。380億パラメータのモデルを用いた場合、タスク成功率を47%から61%まで向上させつつ、平均ステップ数は減少または維持されました。特に注目すべきは、小さなベースモデルにWebCoachを適用することで、GPT-4oを搭載した同じウェブエージェントと同等の性能を達成できたことです。