Command Palette
Search for a command to run...
Kevin Qinghong Lin Siyuan Hu Linjie Li Zhengyuan Yang Lijuan Wang Philip Torr Mike Zheng Shou

摘要
计算机使用智能体(Computer-Use Agents, CUA)通过图形用户界面(GUI)自主操作数字环境的能力正日益增强。然而,大多数 GUI 依然主要为人类设计——优先考虑美观性和易用性——这迫使智能体采用那些对于高效任务执行而言并非必要的“面向人类”的行为。与此同时,面向代码的语言模型(Coder)的飞速发展已彻底变革了自动化 GUI 设计。这引出了一个根本性问题:CUA 能否作为评判者,协助 Coder 进行自动化 GUI 设计?为了探究这一问题,我们提出了 AUI-Gym,这是一个针对自动化 GUI 开发的基准测试,涵盖了跨越多个领域的 52 个应用程序。利用语言模型,我们合成了 1560 个模拟真实世界场景的任务。为确保任务的可靠性,我们进一步开发了一款验证器,用于通过程序化方式检查每个任务在其环境中是否具备可执行性。在此基础上,我们提出了“Coder-CUA 协作”框架:Coder 充当设计者(Designer),负责生成和修改网站;而 CUA 充当评判者(Judge),负责评估功能性并优化设计。成功的衡量标准不在于视觉外观,而在于任务的可解决性以及 CUA 的导航成功率。为了将 CUA 的反馈转化为可用的指导信息,我们设计了 CUA 仪表盘(CUA Dashboard),它将多步导航历史记录压缩为简明的视觉摘要,为迭代式重设计提供具有可解释性的指导。通过将智能体定位为设计者和评判者,我们的框架推动界面设计向着“智能体原生”的效率与可靠性方向转变。我们的工作迈出了重要一步,推动智能体从对数字环境的“被动使用”转向“主动参与”。我们的代码和数据集已在以下地址开源:https://github.com/showlab/AUI