MMBench-GUI : Cadre d'évaluation hiérarchique pour les agents GUI multiplateformes

Nous introduisons MMBench-GUI, un benchmark hiérarchique destiné à évaluer les agents d'automatisation des interfaces graphiques (GUI) sur les plateformes Windows, macOS, Linux, iOS, Android et Web. Il se compose de quatre niveaux : Compréhension du contenu GUI, Localisation des éléments, Automatisation des tâches et Collaboration entre tâches, couvrant les compétences essentielles nécessaires aux agents GUI. En outre, nous proposons une nouvelle métrique, appelée Zone Efficacité-Qualité (Efficiency-Quality Area, EQA), pour évaluer l'efficacité d'exécution des agents GUI dans des scénarios d'automatisation en ligne. Grâce à MMBench-GUI, nous identifions la localisation visuelle précise comme un facteur déterminant clé du succès global des tâches, soulignant les bénéfices considérables des cadres modulaires qui intègrent des modules spécialisés de localisation. De plus, pour obtenir une automatisation GUI fiable, un agent doit posséder des capacités solides de planification des tâches et de généralisation entre plateformes, où la mémoire à long terme, un espace d'actions étendu et une raisonnement à long terme jouent un rôle critique. Plus important encore, l'efficacité des tâches reste une dimension sous-explorée de manière critique, et tous les modèles souffrent de pertes d'efficacité importantes, avec des étapes redondantes excessives même lorsqu'une tâche est finalement accomplie. L'intégration de localisations précises, de planifications efficaces et de stratégies d'arrêt anticipé est indispensable pour permettre une automatisation GUI véritablement efficace et évitable. Le code de notre benchmark, les données d'évaluation et l'environnement d'exécution seront disponibles publiquement sur https://github.com/open-compass/MMBench-GUI.