Command Palette
Search for a command to run...
VenusBench-GD : une benchmark graphique multiplateforme complète pour des tâches d'ancrage diverses
VenusBench-GD : une benchmark graphique multiplateforme complète pour des tâches d'ancrage diverses
Abstract
L’alignement GUI est un composant essentiel dans la construction d’agents capables de manipuler des interfaces graphiques. Toutefois, les benchmarks existants en matière d’alignement souffrent de limites importantes : soit ils offrent un volume de données insuffisant et une couverture de domaines trop étroite, soit ils se concentrent excessivement sur une seule plateforme et exigent des connaissances spécialisées très poussées. Dans ce travail, nous présentons VenusBench-GD, un benchmark complet et bilingue pour l’alignement GUI, couvrant plusieurs plateformes et permettant une évaluation hiérarchique adaptée aux applications du monde réel. VenusBench-GD apporte les contributions suivantes : (i) nous proposons un benchmark à grande échelle, multiplateformes, offrant une couverture étendue des applications, une diversité des éléments d’interface et des données annotées riches ; (ii) nous établissons un pipeline de construction de données de haute qualité pour les tâches d’alignement, atteignant une précision d’annotation supérieure à celle des benchmarks existants ; (iii) nous élargissons le cadre de l’alignement des éléments en proposant une taxonomie hiérarchique des tâches, qui divise l’alignement en catégories fondamentales et avancées, incluant six sous-tâches distinctes conçues pour évaluer les modèles sous des angles complémentaires. Nos résultats expérimentaux révèlent des constatations cruciales : les modèles multimodaux généralistes atteignent désormais des performances égales, voire supérieures, à celles des modèles spécialisés GUI sur les tâches fondamentales d’alignement. En revanche, les tâches avancées restent favorables aux modèles spécialisés GUI, bien qu’ils présentent un surapprentissage important et une faible robustesse. Ces résultats soulignent la nécessité de cadres d’évaluation complets et à plusieurs niveaux.