Command Palette
Search for a command to run...
GroundCUA 界面操作训练数据集
GroundCUA 是由 Mila 魁北克人工智能研究所联合麦吉尔大学、蒙特利尔大学等机构于 2025 年发布的一个真实用户界面(UI)数据集,相关论文成果为「Grounding Computer Use Agents on Human Demonstrations」,旨在支持能够与计算机进行交互的多模态智能体研究。
该数据集包含约 56,000 张桌面截图,覆盖 87 个应用、 12 个类别。数据集基于专家级人类操作示范构建,并提供超过 356 万条经过人工验证的元素级注释。包括 Windows 、 macOS 、 Linux 以及多种跨平台软件,内容涉及生产力工具、通信软件、创意工具、系统工具和开发环境等多类常见应用。数据按软件平台分类存储,便于构建可扩展的数据处理流水线。
数据构成:
- UI 截图图像(PNG)
- 元素级标注 JSON 文件:
- 元素位置与大小(Bounding Box)
- 屏幕文字内容
- UI 功能类别标签
- 唯一元素 ID
