2 days ago
MMBench-GUI:面向GUI代理的分层多平台评估框架
Xuehui Wang, Zhenyu Wu, JingJing Xie, Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang

摘要
我们引入了MMBench-GUI,这是一个用于评估跨Windows、macOS、Linux、iOS、Android和Web平台的GUI自动化代理的分层基准。它包含四个层级:GUI内容理解、元素定位、任务自动化和任务协作,涵盖了GUI代理所需的核心能力。此外,我们提出了一种新的效率-质量面积(Efficiency-Quality Area, EQA)指标,用于评估在线自动化场景中GUI代理的执行效率。通过MMBench-GUI,我们发现准确的视觉定位是任务整体成功的关键因素,这突显了整合专用定位模块的模块化框架所带来的显著优势。此外,为了实现可靠的GUI自动化,代理需要具备强大的任务规划和跨平台泛化能力,其中长上下文记忆、广泛的动作空间以及长期推理在其中发挥着至关重要的作用。更重要的是,任务效率仍然是一个被严重忽视的维度,所有模型在这一方面都存在显著的低效问题,即使任务最终得以完成,也常常伴随着大量的冗余步骤。精确的定位、有效的规划以及早期终止策略的结合,是实现真正高效且可扩展GUI自动化的必要条件。我们的基准代码、评估数据和运行环境将公开发布于https://github.com/open-compass/MMBench-GUI。