Command Palette

Search for a command to run...

14 天前

基于人类示范的计算机使用Agent定位

基于人类示范的计算机使用Agent定位

摘要

构建可靠的计算机使用代理(computer-use agents)需要具备“具身化”(grounding)能力,即能够准确地将自然语言指令与屏幕上的正确元素关联起来。尽管现有大量数据集可用于网页和移动应用交互,但针对桌面环境的高质量资源仍十分有限。为填补这一空白,我们提出了 GroundCUA——一个基于专家人类示范构建的大规模桌面具身化数据集。该数据集涵盖12个类别中的87款应用,包含56,000张屏幕截图,所有屏幕元素均经过精细标注,总计超过356万条经人工验证的标注信息。基于这些示范,我们生成了多样化的自然语言指令,覆盖了广泛的真实世界任务场景,为模型训练提供了高质量的数据支持。利用 GroundCUA,我们开发了 GroundNext 系列模型,能够将自然语言指令映射到目标用户界面元素。在3B和7B两个规模下,GroundNext 通过监督微调在五个基准测试中均达到当前最优性能,且所需训练数据不足以往工作的十分之一。在后续采用强化学习进行后训练后,模型性能进一步提升。当在 OSWorld 基准测试中以 o3 作为规划器,在代理(agentic)设置下进行评估时,GroundNext 的表现可与那些使用远超其数据量的模型相媲美,甚至更优。这些结果充分证明了高质量、专家驱动数据集在推动通用计算机使用代理发展中的关键作用。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供