Command Palette
Search for a command to run...
ActionEngine:通过状态机记忆实现从反应式到程序化GUI Agent的跃迁
ActionEngine:通过状态机记忆实现从反应式到程序化GUI Agent的跃迁
Hongbin Zhong Fazle Faisal Luis França Tanakorn Leesatapornwongsa Adriana Szekeres Kexin Rong Suman Nath
摘要
现有的图形用户界面(GUI)代理通过逐步调用视觉语言模型来运行——即截取屏幕截图,推理下一步操作,执行该操作,然后在新页面上重复此过程——导致成本和延迟随推理步骤数量的增加而显著上升,且由于缺乏对先前访问页面的持久记忆,准确率也受到限制。我们提出 ActionEngine,一种无需训练的框架,通过一种新颖的双代理架构,实现从反应式执行向程序化规划的转变:一个“爬取代理”通过离线探索构建可更新的GUI状态机记忆;一个“执行代理”则利用该记忆,为在线任务执行生成完整且可执行的 Python 程序。为应对界面变化带来的挑战,当执行失败时,系统会触发基于视觉的重新定位回退机制,修复失败的操作并更新记忆状态。该设计显著提升了效率与准确性:在 WebArena 基准测试中的 Reddit 任务上,我们的代理平均仅需一次大语言模型调用即可实现 95% 的任务成功率,远超最强的纯视觉基线模型(66%),同时将成本降低 11.8 倍,端到端延迟减少 2 倍。综上,该框架通过结合全局程序化规划、爬虫验证的动作模板,以及基于节点级别的执行与局部验证及修复机制,实现了可扩展且可靠的 GUI 交互。