HyperAIHyperAI

Command Palette

Search for a command to run...

VenusBench-GD 跨平台界面理解数据集

Date

21 小时前

Organization

iMean AI
蚂蚁集团

Paper URL

2512.16501

License

MIT

VenusBench-GD 是由蚂蚁集团联合 iMean AI 于 2025 年发布的一个面向图形用户界面(GUI)元素定位与理解的数据集,相关论文成果为 VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks,旨在评估模型在不同平台界面中根据自然语言指令准确识别和定位目标界面元素的能力。

该数据集共包含 6,166 条人工标注样本,涵盖基础定位与高级推理两类任务,每条样本由界面截图与对应的自然语言指令组成。数据基于 97 个不同的应用与网站构建,覆盖 Web 、移动端和桌面端三类平台,并同时包含中英文界面。基础任务主要考察模型对界面元素类型、文本内容、空间关系和视觉外观的理解能力,高级任务则进一步引入推理、功能理解以及对不存在目标的合理拒绝,对模型的全局界面理解与语义推断能力提出更高要求。通过多阶段自动化生成与人工审核相结合的构建流程,该数据集在保证规模的同时,有效降低了标注噪声和歧义,为 GUI 智能体和多模态模型评测提供了可靠的数据基础。

数据集示例

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供