Command Palette

Search for a command to run...

6 小时前

计算机操作 Agent 作为生成式用户界面的评判者

Kevin Qinghong Lin Siyuan Hu Linjie Li Zhengyuan Yang Lijuan Wang Philip Torr Mike Zheng Shou

计算机操作 Agent 作为生成式用户界面的评判者

摘要

计算机使用智能体(Computer-Use Agents, CUA)通过图形用户界面(GUI)自主操作数字环境的能力正日益增强。然而,大多数 GUI 依然主要为人类设计——优先考虑美观性和易用性——这迫使智能体采用那些对于高效任务执行而言并非必要的“面向人类”的行为。与此同时,面向代码的语言模型(Coder)的飞速发展已彻底变革了自动化 GUI 设计。这引出了一个根本性问题:CUA 能否作为评判者,协助 Coder 进行自动化 GUI 设计?为了探究这一问题,我们提出了 AUI-Gym,这是一个针对自动化 GUI 开发的基准测试,涵盖了跨越多个领域的 52 个应用程序。利用语言模型,我们合成了 1560 个模拟真实世界场景的任务。为确保任务的可靠性,我们进一步开发了一款验证器,用于通过程序化方式检查每个任务在其环境中是否具备可执行性。在此基础上,我们提出了“Coder-CUA 协作”框架:Coder 充当设计者(Designer),负责生成和修改网站;而 CUA 充当评判者(Judge),负责评估功能性并优化设计。成功的衡量标准不在于视觉外观,而在于任务的可解决性以及 CUA 的导航成功率。为了将 CUA 的反馈转化为可用的指导信息,我们设计了 CUA 仪表盘(CUA Dashboard),它将多步导航历史记录压缩为简明的视觉摘要,为迭代式重设计提供具有可解释性的指导。通过将智能体定位为设计者和评判者,我们的框架推动界面设计向着“智能体原生”的效率与可靠性方向转变。我们的工作迈出了重要一步,推动智能体从对数字环境的“被动使用”转向“主动参与”。我们的代码和数据集已在以下地址开源:https://github.com/showlab/AUI

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
计算机操作 Agent 作为生成式用户界面的评判者 | 论文 | HyperAI超神经