HyperAIHyperAI

Command Palette

Search for a command to run...

VenusBench-GD : une benchmark graphique multiplateforme complète pour des tâches d'ancrage diverses

Abstract

L’alignement GUI est un composant essentiel dans la construction d’agents capables de manipuler des interfaces graphiques. Toutefois, les benchmarks existants en matière d’alignement souffrent de limites importantes : soit ils offrent un volume de données insuffisant et une couverture de domaines trop étroite, soit ils se concentrent excessivement sur une seule plateforme et exigent des connaissances spécialisées très poussées. Dans ce travail, nous présentons VenusBench-GD, un benchmark complet et bilingue pour l’alignement GUI, couvrant plusieurs plateformes et permettant une évaluation hiérarchique adaptée aux applications du monde réel. VenusBench-GD apporte les contributions suivantes : (i) nous proposons un benchmark à grande échelle, multiplateformes, offrant une couverture étendue des applications, une diversité des éléments d’interface et des données annotées riches ; (ii) nous établissons un pipeline de construction de données de haute qualité pour les tâches d’alignement, atteignant une précision d’annotation supérieure à celle des benchmarks existants ; (iii) nous élargissons le cadre de l’alignement des éléments en proposant une taxonomie hiérarchique des tâches, qui divise l’alignement en catégories fondamentales et avancées, incluant six sous-tâches distinctes conçues pour évaluer les modèles sous des angles complémentaires. Nos résultats expérimentaux révèlent des constatations cruciales : les modèles multimodaux généralistes atteignent désormais des performances égales, voire supérieures, à celles des modèles spécialisés GUI sur les tâches fondamentales d’alignement. En revanche, les tâches avancées restent favorables aux modèles spécialisés GUI, bien qu’ils présentent un surapprentissage important et une faible robustesse. Ces résultats soulignent la nécessité de cadres d’évaluation complets et à plusieurs niveaux.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp