5 个月前

Zhaoyang Liu JingJing Xie Zichen Ding Zehao Li Bowen Yang Zhenyu Wu Xuehui Wang Qiushi Sun Shi Liu Weiyun Wang

摘要

视觉-语言模型（VLMs）已推动了计算机使用代理（Computer Use Agents, CUAs）的发展，使其能够自主操作图形用户界面（GUI），展现出巨大潜力。然而，当前进展受限于缺乏大规模、开源的计算机使用数据集及基础模型。在本工作中，我们提出了ScaleCUA，朝着构建大规模开源CUA迈出了重要一步。该方案构建了一个涵盖6种操作系统和3个任务领域的大型数据集，通过一个闭环流程实现，该流程融合了自动化代理与人类专家的协同协作。基于这一扩展后的数据集进行训练，ScaleCUA能够在不同平台间实现无缝操作。具体而言，其性能显著优于现有基线方法（在WebArena-Lite-v2上提升26.6分，在ScreenSpot-Pro上提升10.7分），并创下多项新纪录：在MMBench-GUI L1-Hard上达到94.4%，在OSWorld-G上达到60.6%，在WebArena-Lite-v2上达到47.4%。这些结果充分证明了数据驱动规模化对通用计算机使用代理的强大推动作用。我们已将数据集、模型与代码开源，以促进后续研究：https://github.com/OpenGVLab/ScaleCUA。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 个月前

Zhaoyang Liu JingJing Xie Zichen Ding Zehao Li Bowen Yang Zhenyu Wu Xuehui Wang Qiushi Sun Shi Liu Weiyun Wang

摘要

视觉-语言模型（VLMs）已推动了计算机使用代理（Computer Use Agents, CUAs）的发展，使其能够自主操作图形用户界面（GUI），展现出巨大潜力。然而，当前进展受限于缺乏大规模、开源的计算机使用数据集及基础模型。在本工作中，我们提出了ScaleCUA，朝着构建大规模开源CUA迈出了重要一步。该方案构建了一个涵盖6种操作系统和3个任务领域的大型数据集，通过一个闭环流程实现，该流程融合了自动化代理与人类专家的协同协作。基于这一扩展后的数据集进行训练，ScaleCUA能够在不同平台间实现无缝操作。具体而言，其性能显著优于现有基线方法（在WebArena-Lite-v2上提升26.6分，在ScreenSpot-Pro上提升10.7分），并创下多项新纪录：在MMBench-GUI L1-Hard上达到94.4%，在OSWorld-G上达到60.6%，在WebArena-Lite-v2上达到47.4%。这些结果充分证明了数据驱动规模化对通用计算机使用代理的强大推动作用。我们已将数据集、模型与代码开源，以促进后续研究：https://github.com/OpenGVLab/ScaleCUA。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供