HyperAI超神经
3 days ago

OS-MAP: 计算机使用代理在广度和深度上能走多远?

Xuetian Chen, Yinghao Chen, Xinfeng Yuan, Zhuo Peng, Lu Chen, Yuekeng Li, et al
OS-MAP: 计算机使用代理在广度和深度上能走多远?
摘要

使用计算机的智能体(computer-using agents)已展现出显著潜力,能够提升人类生产力,并在不同平台上实现新的应用形式。尽管近期取得了一些进展,现有基准测试未能充分考虑任务内部的异质性以及相应的智能体能力,也未反映这些能力与实际用户需求之间的匹配程度,这在一定程度上阻碍了有针对性的能力开发,以及研究成果向实际部署的可靠转化。为弥合这一差距,我们提出了 OS-MAP,这是一个用于日常计算机使用自动化的基准,其包含416项现实任务,并按照两个关键维度对这些任务进行组织:一是自动化程度的五级分类体系,二是基于真实用户需求层次结构的泛化范围。为了实现对所需能力的细粒度分析以及与现实场景的对齐评估,OS-MAP 从两个维度对智能体进行评测:一是基于五级分类体系的自动化水平,二是基于需求层次结构的泛化范围。这种设计能够捕捉智能体在自主性和泛化能力方面所需的不同层次,形成一个性能-泛化评估矩阵,以实现结构化和全面的评估。实验表明,即使是最先进的基于视觉-语言模型(VLM)的智能体,在涉及感知、推理和协作的高层任务上仍面临挑战,这突显了深入理解当前技术优势与局限性的必要性,以推动计算机使用智能体研究与部署的未来发展。所有代码、环境、基线模型和数据集均可在以下网址公开获取:https://example.com。