il y a 2 mois

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou

Résumé

L’alignement GUI est un composant essentiel dans la construction d’agents capables de manipuler des interfaces graphiques. Toutefois, les benchmarks existants en matière d’alignement souffrent de limites importantes : soit ils offrent un volume de données insuffisant et une couverture de domaines trop étroite, soit ils se concentrent excessivement sur une seule plateforme et exigent des connaissances spécialisées très poussées. Dans ce travail, nous présentons VenusBench-GD, un benchmark complet et bilingue pour l’alignement GUI, couvrant plusieurs plateformes et permettant une évaluation hiérarchique adaptée aux applications du monde réel. VenusBench-GD apporte les contributions suivantes : (i) nous proposons un benchmark à grande échelle, multiplateformes, offrant une couverture étendue des applications, une diversité des éléments d’interface et des données annotées riches ; (ii) nous établissons un pipeline de construction de données de haute qualité pour les tâches d’alignement, atteignant une précision d’annotation supérieure à celle des benchmarks existants ; (iii) nous élargissons le cadre de l’alignement des éléments en proposant une taxonomie hiérarchique des tâches, qui divise l’alignement en catégories fondamentales et avancées, incluant six sous-tâches distinctes conçues pour évaluer les modèles sous des angles complémentaires. Nos résultats expérimentaux révèlent des constatations cruciales : les modèles multimodaux généralistes atteignent désormais des performances égales, voire supérieures, à celles des modèles spécialisés GUI sur les tâches fondamentales d’alignement. En revanche, les tâches avancées restent favorables aux modèles spécialisés GUI, bien qu’ils présentent un surapprentissage important et une faible robustesse. Ces résultats soulignent la nécessité de cadres d’évaluation complets et à plusieurs niveaux.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 2 mois

Benchmarks

Interaction Homme-Machine

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 2 mois

Benchmarks

Interaction Homme-Machine

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

VenusBench-GD : une benchmark graphique multiplateforme complète pour des tâches d'ancrage diverses

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou3 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VenusBench-GD : une benchmark graphique multiplateforme complète pour des tâches d'ancrage diverses

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou3 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VenusBench-GD : une benchmark graphique multiplateforme complète pour des tâches d'ancrage diverses

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou3 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou