3 个月前

摘要

计算机使用智能体（Computer-Use Agents, CUA）通过图形用户界面（GUI）自主操作数字环境的能力正日益增强。然而，大多数 GUI 依然主要为人类设计——优先考虑美观性和易用性——这迫使智能体采用那些对于高效任务执行而言并非必要的“面向人类”的行为。与此同时，面向代码的语言模型（Coder）的飞速发展已彻底变革了自动化 GUI 设计。这引出了一个根本性问题：CUA 能否作为评判者，协助 Coder 进行自动化 GUI 设计？为了探究这一问题，我们提出了 AUI-Gym，这是一个针对自动化 GUI 开发的基准测试，涵盖了跨越多个领域的 52 个应用程序。利用语言模型，我们合成了 1560 个模拟真实世界场景的任务。为确保任务的可靠性，我们进一步开发了一款验证器，用于通过程序化方式检查每个任务在其环境中是否具备可执行性。在此基础上，我们提出了“Coder-CUA 协作”框架：Coder 充当设计者（Designer），负责生成和修改网站；而 CUA 充当评判者（Judge），负责评估功能性并优化设计。成功的衡量标准不在于视觉外观，而在于任务的可解决性以及 CUA 的导航成功率。为了将 CUA 的反馈转化为可用的指导信息，我们设计了 CUA 仪表盘（CUA Dashboard），它将多步导航历史记录压缩为简明的视觉摘要，为迭代式重设计提供具有可解释性的指导。通过将智能体定位为设计者和评判者，我们的框架推动界面设计向着“智能体原生”的效率与可靠性方向转变。我们的工作迈出了重要一步，推动智能体从对数字环境的“被动使用”转向“主动参与”。我们的代码和数据集已在以下地址开源：https://github.com/showlab/AUI

源 PDF