通过用户界面分解与合成扩展计算机使用的基础

Tianbao Xie, Jiaqi Deng, Xiaochuan Li, Junlin Yang, Haoyuan Wu, Jixuan Chen, Wenjing Hu, Xinyuan Wang, Yuhui Xu, Zekun Wang, Yiheng Xu, Junli Wang, Doyen Sahoo, Tao Yu, Caiming Xiong

发布日期: 5/21/2025

摘要

图形用户界面（GUI）接地是指将自然语言指令映射到图形用户界面上的具体操作的能力，这仍然是计算机使用代理开发中的一个关键瓶颈。当前的基准测试过度简化了接地任务，将其视为简短的指代表达式，未能捕捉到现实世界交互所需的软件常识、布局理解和精细操作能力的复杂性。为了解决这些局限性，我们引入了OSWorld-G，这是一个全面的基准测试，包含564个精心注释的样本，涵盖了多种任务类型，包括文本匹配、元素识别、布局理解和精确操作。此外，我们合成了并发布了最大的计算机使用接地数据集Jedi，该数据集通过多视角解耦任务包含了400万个示例。我们在Jedi上训练的多尺度模型展示了其有效性，在ScreenSpot-v2、ScreenSpot-Pro和我们的OSWorld-G上均超过了现有方法的表现。进一步研究表明，利用Jedi改进的接地能力直接增强了通用基础模型在复杂计算机任务中的代理能力，在OSWorld上的表现从5%提升到了27%。通过详细的消融研究，我们确定了影响接地性能的关键因素，并验证了结合针对不同界面元素的专业数据可以实现对新界面的组合泛化。所有基准测试、数据集、检查点和代码均已开源，并可在https://osworld-grounding.github.io 获取。

查看论文详情 View Code