Command Palette

Search for a command to run...

1 个月前

ScaleCUA:基于跨平台数据的开源计算机使用Agent扩展

ScaleCUA:基于跨平台数据的开源计算机使用Agent扩展

摘要

视觉-语言模型(VLMs)已推动了计算机使用代理(Computer Use Agents, CUAs)的发展,使其能够自主操作图形用户界面(GUI),展现出巨大潜力。然而,当前进展受限于缺乏大规模、开源的计算机使用数据集及基础模型。在本工作中,我们提出了ScaleCUA,朝着构建大规模开源CUA迈出了重要一步。该方案构建了一个涵盖6种操作系统和3个任务领域的大型数据集,通过一个闭环流程实现,该流程融合了自动化代理与人类专家的协同协作。基于这一扩展后的数据集进行训练,ScaleCUA能够在不同平台间实现无缝操作。具体而言,其性能显著优于现有基线方法(在WebArena-Lite-v2上提升26.6分,在ScreenSpot-Pro上提升10.7分),并创下多项新纪录:在MMBench-GUI L1-Hard上达到94.4%,在OSWorld-G上达到60.6%,在WebArena-Lite-v2上达到47.4%。这些结果充分证明了数据驱动规模化对通用计算机使用代理的强大推动作用。我们已将数据集、模型与代码开源,以促进后续研究:https://github.com/OpenGVLab/ScaleCUA。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供