日期

6 个月前

数据集组织

论文 URL

2512.16501

许可证

MIT

标签

多模态

文本生成

视觉问答

VenusBench-GD 是由蚂蚁集团联合 iMean AI 于 2025 年发布的一个面向图形用户界面（GUI）元素定位与理解的数据集，相关论文成果为 VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks，旨在评估模型在不同平台界面中根据自然语言指令准确识别和定位目标界面元素的能力。该数据集共包含 6,166 条人工标注样本，涵盖基础定位与高级推理两类任务，每条样本由界面截图与对应的自然语言指令组成。数据基于 97 个不同的应用与网站构建，覆盖 Web 、移动端和桌面端三类平台，并同时包含中英文界面。基础任务主要考察模型对界面元素类型、文本内容、空间关系和视觉外观的理解能力，高级任务则进一步引入推理、功能理解以及对不存在目标的合理拒绝，对模型的全局界面理解与语义推断能力提出更高要求。通过多阶段自动化生成与人工审核相结合的构建流程，该数据集在保证规模的同时，有效降低了标注噪声和歧义，为 GUI 智能体和多模态模型评测提供了可靠的数据基础。