HyperAIHyperAI

Command Palette

Search for a command to run...

MMBench-GUI : Cadre d'évaluation hiérarchique pour les agents GUI multiplateformes

Résumé

Nous introduisons MMBench-GUI, un benchmark hiérarchique destiné à évaluer les agents d'automatisation des interfaces graphiques (GUI) sur les plateformes Windows, macOS, Linux, iOS, Android et Web. Il se compose de quatre niveaux : Compréhension du contenu GUI, Localisation des éléments, Automatisation des tâches et Collaboration entre tâches, couvrant les compétences essentielles nécessaires aux agents GUI. En outre, nous proposons une nouvelle métrique, appelée Zone Efficacité-Qualité (Efficiency-Quality Area, EQA), pour évaluer l'efficacité d'exécution des agents GUI dans des scénarios d'automatisation en ligne. Grâce à MMBench-GUI, nous identifions la localisation visuelle précise comme un facteur déterminant clé du succès global des tâches, soulignant les bénéfices considérables des cadres modulaires qui intègrent des modules spécialisés de localisation. De plus, pour obtenir une automatisation GUI fiable, un agent doit posséder des capacités solides de planification des tâches et de généralisation entre plateformes, où la mémoire à long terme, un espace d'actions étendu et une raisonnement à long terme jouent un rôle critique. Plus important encore, l'efficacité des tâches reste une dimension sous-explorée de manière critique, et tous les modèles souffrent de pertes d'efficacité importantes, avec des étapes redondantes excessives même lorsqu'une tâche est finalement accomplie. L'intégration de localisations précises, de planifications efficaces et de stratégies d'arrêt anticipé est indispensable pour permettre une automatisation GUI véritablement efficace et évitable. Le code de notre benchmark, les données d'évaluation et l'environnement d'exécution seront disponibles publiquement sur https://github.com/open-compass/MMBench-GUI.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MMBench-GUI : Cadre d'évaluation hiérarchique pour les agents GUI multiplateformes | Articles | HyperAI