Command Palette

Search for a command to run...

GroundCUA 界面操作训练数据集

日期

21 小时前

机构

论文链接

2511.07332

许可协议

MIT

GroundCUA 是由 Mila 魁北克人工智能研究所联合麦吉尔大学、蒙特利尔大学等机构于 2025 年发布的一个真实用户界面(UI)数据集,相关论文成果为「Grounding Computer Use Agents on Human Demonstrations」,旨在支持能够与计算机进行交互的多模态智能体研究。

该数据集包含约 56,000 张桌面截图,覆盖 87 个应用、 12 个类别。数据集基于专家级人类操作示范构建,并提供超过 356 万条经过人工验证的元素级注释。包括 Windows 、 macOS 、 Linux 以及多种跨平台软件,内容涉及生产力工具、通信软件、创意工具、系统工具和开发环境等多类常见应用。数据按软件平台分类存储,便于构建可扩展的数据处理流水线。

数据构成:

  • UI 截图图像(PNG)
  • 元素级标注 JSON 文件:
    • 元素位置与大小(Bounding Box)
    • 屏幕文字内容
    • UI 功能类别标签
    • 唯一元素 ID
数据集概览

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GroundCUA 界面操作训练数据集 | 数据集 | HyperAI超神经