Command Palette
Search for a command to run...
VenusBench-GD:面向多样化定位任务的综合性多平台GUI基准
VenusBench-GD:面向多样化定位任务的综合性多平台GUI基准
Abstract
GUI 语义定位是构建高效 GUI 代理的关键组成部分。然而,现有的语义定位评估基准存在显著局限性:部分基准数据量不足、领域覆盖范围狭窄;另一些则过度聚焦于单一平台,且需要高度专业化的领域知识。在本工作中,我们提出了 VenusBench-GD,这是一个全面的、多语言的 GUI 语义定位基准,覆盖多个平台,支持面向真实应用场景的分层评估。VenusBench-GD 的主要贡献如下:(i)我们构建了一个大规模、跨平台的基准,涵盖丰富的应用类型、多样的用户界面元素以及详尽的标注数据;(ii)我们建立了一套高质量的数据构建流程,用于语义定位任务,其标注准确率高于现有基准;(iii)我们拓展了元素定位的评估范围,提出了一种分层任务分类体系,将语义定位任务划分为基础与高级两类,共包含六个不同子任务,可从互补角度全面评估模型性能。实验结果揭示了若干关键发现:通用多模态模型在基础语义定位任务上已达到甚至超越了专用 GUI 模型的水平;而在高级任务中,尽管专用 GUI 模型仍具优势,但其存在显著过拟合现象且鲁棒性较差。这些结果凸显了构建全面、多层次评估框架的必要性。