HyperAI超神经

UFO2:桌面代理操作系统

Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
发布日期: 4/23/2025
UFO2:桌面代理操作系统
摘要

近期,由多模态大型语言模型(LLMs)驱动的计算机使用代理(CUAs)为通过自然语言实现复杂桌面工作流程的自动化提供了一个有前景的方向。然而,大多数现有的CUAs仍停留在概念原型阶段,受到浅层次操作系统集成、脆弱的基于截图的交互以及干扰性执行的限制。 我们介绍了UFO2,这是一个面向Windows桌面的多代理AgentOS系统,它将CUAs提升到了实用的系统级自动化水平。UFO2包含一个用于任务分解和协调的中心化HostAgent,以及一组配备原生API、特定领域知识和统一GUI- API动作层的应用程序专用AppAgent。这种架构不仅支持健壮的任务执行,还保持了模块化和可扩展性。混合控制检测管道融合了Windows UI自动化(UIA)与基于视觉解析的方法,以支持多种界面风格。通过推测性的多动作规划进一步提升了运行时效率,减少了每一步中LLMs的开销。最后,画中画(PiP)界面允许在隔离的虚拟桌面中进行自动化操作,使代理和用户可以同时工作而不互相干扰。 我们在超过20个真实世界的Windows应用程序上评估了UFO2,展示了其在健壮性和执行准确性方面相较于先前CUAs的重大改进。我们的结果显示,深度操作系统集成解锁了一条可扩展路径,通向可靠且符合用户需求的桌面自动化。