il y a 6 mois

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen

Résumé

Nous introduisons MMBench-GUI, un benchmark hiérarchique destiné à évaluer les agents d'automatisation des interfaces graphiques (GUI) sur les plateformes Windows, macOS, Linux, iOS, Android et Web. Il se compose de quatre niveaux : Compréhension du contenu GUI, Localisation des éléments, Automatisation des tâches et Collaboration entre tâches, couvrant les compétences essentielles nécessaires aux agents GUI. En outre, nous proposons une nouvelle métrique, appelée Zone Efficacité-Qualité (Efficiency-Quality Area, EQA), pour évaluer l'efficacité d'exécution des agents GUI dans des scénarios d'automatisation en ligne. Grâce à MMBench-GUI, nous identifions la localisation visuelle précise comme un facteur déterminant clé du succès global des tâches, soulignant les bénéfices considérables des cadres modulaires qui intègrent des modules spécialisés de localisation. De plus, pour obtenir une automatisation GUI fiable, un agent doit posséder des capacités solides de planification des tâches et de généralisation entre plateformes, où la mémoire à long terme, un espace d'actions étendu et une raisonnement à long terme jouent un rôle critique. Plus important encore, l'efficacité des tâches reste une dimension sous-explorée de manière critique, et tous les modèles souffrent de pertes d'efficacité importantes, avec des étapes redondantes excessives même lorsqu'une tâche est finalement accomplie. L'intégration de localisations précises, de planifications efficaces et de stratégies d'arrêt anticipé est indispensable pour permettre une automatisation GUI véritablement efficace et évitable. Le code de notre benchmark, les données d'évaluation et l'environnement d'exécution seront disponibles publiquement sur https://github.com/open-compass/MMBench-GUI.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Benchmarks

Agent

Interaction Homme-Machine

Domaine De Recherche

Infrastructure D'ia

Approche/Framework

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Benchmarks

Agent

Interaction Homme-Machine

Domaine De Recherche

Infrastructure D'ia

Approche/Framework

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

MMBench-GUI : Cadre d'évaluation hiérarchique pour les agents GUI multiplateformes

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen18 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MMBench-GUI : Cadre d'évaluation hiérarchique pour les agents GUI multiplateformes

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen18 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MMBench-GUI : Cadre d'évaluation hiérarchique pour les agents GUI multiplateformes

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen18 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen