HyperAI
il y a 2 jours

MMBench-GUI : Cadre d'évaluation hiérarchique pour les agents GUI multiplateformes

Xuehui Wang, Zhenyu Wu, JingJing Xie, Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang
MMBench-GUI : Cadre d'évaluation hiérarchique pour les agents GUI multiplateformes
Résumé

Nous introduisons MMBench-GUI, un benchmark hiérarchique destiné à évaluer les agents d'automatisation des interfaces graphiques (GUI) sur les plateformes Windows, macOS, Linux, iOS, Android et Web. Il se compose de quatre niveaux : Compréhension du contenu GUI, Localisation des éléments, Automatisation des tâches et Collaboration entre tâches, couvrant les compétences essentielles nécessaires aux agents GUI. En outre, nous proposons une nouvelle métrique, appelée Zone Efficacité-Qualité (Efficiency-Quality Area, EQA), pour évaluer l'efficacité d'exécution des agents GUI dans des scénarios d'automatisation en ligne. Grâce à MMBench-GUI, nous identifions la localisation visuelle précise comme un facteur déterminant clé du succès global des tâches, soulignant les bénéfices considérables des cadres modulaires qui intègrent des modules spécialisés de localisation. De plus, pour obtenir une automatisation GUI fiable, un agent doit posséder des capacités solides de planification des tâches et de généralisation entre plateformes, où la mémoire à long terme, un espace d'actions étendu et une raisonnement à long terme jouent un rôle critique. Plus important encore, l'efficacité des tâches reste une dimension sous-explorée de manière critique, et tous les modèles souffrent de pertes d'efficacité importantes, avec des étapes redondantes excessives même lorsqu'une tâche est finalement accomplie. L'intégration de localisations précises, de planifications efficaces et de stratégies d'arrêt anticipé est indispensable pour permettre une automatisation GUI véritablement efficace et évitable. Le code de notre benchmark, les données d'évaluation et l'environnement d'exécution seront disponibles publiquement sur https://github.com/open-compass/MMBench-GUI.