Command Palette
Search for a command to run...
AgentNet 桌面操作任务数据集
AgentNet 是由香港大学 XLANG 实验室,联合 Moonshot AI 、斯坦福大学等机构,于 2025 年发布的首个大规模桌面计算机使用智能体轨迹数据集,相关论文成果为「OPENCUA: Open Foundations for Computer-Use Agents」,旨在支持与评测跨平台的 GUI 操作智能体与视觉-语言-动作(VLA)模型。
数据集包含 22.6K 条人工标注的电脑使用任务轨迹,覆盖 Windows / macOS / Ubuntu 三大系统与 200+ 个应用/网站,场景涉及办公、专业、日常、系统四类。适用于桌面自动化、多应用流程与跨平台代理的训练与评估。
数据结构与字段
每条样本包含:
- 任务元信息:任务编号(task_id)、指令(instruction);
- 质量评分:是否完成、一致性、效率、难度;
- 摘要性描述:natural_language_task 、 actual_task;
- 轨迹数组:traj(按时间顺序记录的操作步骤)。
轨迹步骤(traj)结构:
- 每步含 index 、 image(截图),以及 value 对象:
- observation(场景观察)、 thought(思考/计划)、 action(自然语言动作)、 code(可执行代码,如 PyAutoGUI)、 last_step_correct 、 last_step_redundant 、 reflection(反思)。
