Command Palette
Search for a command to run...
ActionEngine:状態遷移記憶を用いた反応型からプログラム型GUIエージェントへ
ActionEngine:状態遷移記憶を用いた反応型からプログラム型GUIエージェントへ
Hongbin Zhong Fazle Faisal Luis França Tanakorn Leesatapornwongsa Adriana Szekeres Kexin Rong Suman Nath
概要
既存のグラフィカルユーザーインターフェース(GUI)エージェントは、視覚言語モデルへの段階的な呼び出しによって動作しており、スクリーンショットを取得し、次の行動を推論し、実行した後、新しいページで同じプロセスを繰り返すという方式を取っている。このため、推論ステップ数に比例してコストと遅延が増大する一方、以前に訪問したページの記憶が持続しないため、精度に限界がある。本研究では、学習を必要としない新しい二エージェントアーキテクチャを採用した「ActionEngine」というフレームワークを提案する。このアーキテクチャは、反応型の実行からプログラム型の計画へと移行する。具体的には、オフライン探索を通じてGUIの更新可能な状態遷移マシン記憶を構築する「クローリングエージェント」と、この記憶を活用してオンラインタスク実行用の完全かつ実行可能なPythonプログラムを合成する「実行エージェント」から構成される。変化するインターフェースへの耐性を確保するため、実行失敗時には視覚ベースの再接地(re-grounding)フォールバックが発動し、失敗したアクションを修復するとともに、記憶を更新する。この設計により、効率性と精度が大幅に向上する。WebArenaベンチマークに含まれるRedditタスクにおいて、本エージェントは平均1回のLLM呼び出しで95%のタスク成功を達成したのに対し、最も強力な視覚のみのベースラインは66%にとどまり、コストは11.8倍削減、エンドツーエンドの遅延は2倍短縮された。これらの要素を統合することで、グローバルなプログラム型計画、クローラー検証済みのアクションテンプレート、および局所的検証と修復を備えたノードレベルの実行を組み合わせることで、スケーラブルかつ信頼性の高いGUI操作を実現した。