2 个月前

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou

摘要

GUI 语义定位是构建高效 GUI 代理的关键组成部分。然而，现有的语义定位评估基准存在显著局限性：部分基准数据量不足、领域覆盖范围狭窄；另一些则过度聚焦于单一平台，且需要高度专业化的领域知识。在本工作中，我们提出了 VenusBench-GD，这是一个全面的、多语言的 GUI 语义定位基准，覆盖多个平台，支持面向真实应用场景的分层评估。VenusBench-GD 的主要贡献如下：（i）我们构建了一个大规模、跨平台的基准，涵盖丰富的应用类型、多样的用户界面元素以及详尽的标注数据；（ii）我们建立了一套高质量的数据构建流程，用于语义定位任务，其标注准确率高于现有基准；（iii）我们拓展了元素定位的评估范围，提出了一种分层任务分类体系，将语义定位任务划分为基础与高级两类，共包含六个不同子任务，可从互补角度全面评估模型性能。实验结果揭示了若干关键发现：通用多模态模型在基础语义定位任务上已达到甚至超越了专用 GUI 模型的水平；而在高级任务中，尽管专用 GUI 模型仍具优势，但其存在显著过拟合现象且鲁棒性较差。这些结果凸显了构建全面、多层次评估框架的必要性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

2 个月前

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou

摘要

GUI 语义定位是构建高效 GUI 代理的关键组成部分。然而，现有的语义定位评估基准存在显著局限性：部分基准数据量不足、领域覆盖范围狭窄；另一些则过度聚焦于单一平台，且需要高度专业化的领域知识。在本工作中，我们提出了 VenusBench-GD，这是一个全面的、多语言的 GUI 语义定位基准，覆盖多个平台，支持面向真实应用场景的分层评估。VenusBench-GD 的主要贡献如下：（i）我们构建了一个大规模、跨平台的基准，涵盖丰富的应用类型、多样的用户界面元素以及详尽的标注数据；（ii）我们建立了一套高质量的数据构建流程，用于语义定位任务，其标注准确率高于现有基准；（iii）我们拓展了元素定位的评估范围，提出了一种分层任务分类体系，将语义定位任务划分为基础与高级两类，共包含六个不同子任务，可从互补角度全面评估模型性能。实验结果揭示了若干关键发现：通用多模态模型在基础语义定位任务上已达到甚至超越了专用 GUI 模型的水平；而在高级任务中，尽管专用 GUI 模型仍具优势，但其存在显著过拟合现象且鲁棒性较差。这些结果凸显了构建全面、多层次评估框架的必要性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供