2 天前

自然语言处理

Hongbin Zhong Fazle Faisal Luis França Tanakorn Leesatapornwongsa Adriana Szekeres Kexin Rong Suman Nath

摘要

现有的图形用户界面（GUI）代理通过逐步调用视觉语言模型来运行——即截取屏幕截图，推理下一步操作，执行该操作，然后在新页面上重复此过程——导致成本和延迟随推理步骤数量的增加而显著上升，且由于缺乏对先前访问页面的持久记忆，准确率也受到限制。我们提出 ActionEngine，一种无需训练的框架，通过一种新颖的双代理架构，实现从反应式执行向程序化规划的转变：一个“爬取代理”通过离线探索构建可更新的GUI状态机记忆；一个“执行代理”则利用该记忆，为在线任务执行生成完整且可执行的 Python 程序。为应对界面变化带来的挑战，当执行失败时，系统会触发基于视觉的重新定位回退机制，修复失败的操作并更新记忆状态。该设计显著提升了效率与准确性：在 WebArena 基准测试中的 Reddit 任务上，我们的代理平均仅需一次大语言模型调用即可实现 95% 的任务成功率，远超最强的纯视觉基线模型（66%），同时将成本降低 11.8 倍，端到端延迟减少 2 倍。综上，该框架通过结合全局程序化规划、爬虫验证的动作模板，以及基于节点级别的执行与局部验证及修复机制，实现了可扩展且可靠的 GUI 交互。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

2 天前

自然语言处理

Hongbin Zhong Fazle Faisal Luis França Tanakorn Leesatapornwongsa Adriana Szekeres Kexin Rong Suman Nath

摘要

现有的图形用户界面（GUI）代理通过逐步调用视觉语言模型来运行——即截取屏幕截图，推理下一步操作，执行该操作，然后在新页面上重复此过程——导致成本和延迟随推理步骤数量的增加而显著上升，且由于缺乏对先前访问页面的持久记忆，准确率也受到限制。我们提出 ActionEngine，一种无需训练的框架，通过一种新颖的双代理架构，实现从反应式执行向程序化规划的转变：一个“爬取代理”通过离线探索构建可更新的GUI状态机记忆；一个“执行代理”则利用该记忆，为在线任务执行生成完整且可执行的 Python 程序。为应对界面变化带来的挑战，当执行失败时，系统会触发基于视觉的重新定位回退机制，修复失败的操作并更新记忆状态。该设计显著提升了效率与准确性：在 WebArena 基准测试中的 Reddit 任务上，我们的代理平均仅需一次大语言模型调用即可实现 95% 的任务成功率，远超最强的纯视觉基线模型（66%），同时将成本降低 11.8 倍，端到端延迟减少 2 倍。综上，该框架通过结合全局程序化规划、爬虫验证的动作模板，以及基于节点级别的执行与局部验证及修复机制，实现了可扩展且可靠的 GUI 交互。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供