Command Palette
Search for a command to run...

摘要
视觉-语言模型(VLMs)已推动了计算机使用代理(Computer Use Agents, CUAs)的发展,使其能够自主操作图形用户界面(GUI),展现出巨大潜力。然而,当前进展受限于缺乏大规模、开源的计算机使用数据集及基础模型。在本工作中,我们提出了ScaleCUA,朝着构建大规模开源CUA迈出了重要一步。该方案构建了一个涵盖6种操作系统和3个任务领域的大型数据集,通过一个闭环流程实现,该流程融合了自动化代理与人类专家的协同协作。基于这一扩展后的数据集进行训练,ScaleCUA能够在不同平台间实现无缝操作。具体而言,其性能显著优于现有基线方法(在WebArena-Lite-v2上提升26.6分,在ScreenSpot-Pro上提升10.7分),并创下多项新纪录:在MMBench-GUI L1-Hard上达到94.4%,在OSWorld-G上达到60.6%,在WebArena-Lite-v2上达到47.4%。这些结果充分证明了数据驱动规模化对通用计算机使用代理的强大推动作用。我们已将数据集、模型与代码开源,以促进后续研究:https://github.com/OpenGVLab/ScaleCUA。