HyperAIHyperAI

Command Palette

Search for a command to run...

ShowUI : Un modèle vision-langage-action unique pour un agent visuel GUI

Kevin Qinghong Lin Linjie Li Difei Gao Zhengyuan Yang Shiwei Wu Zechen Bai Weixian Lei Lijuan Wang Mike Zheng Shou

Résumé

La conception d’assistants d’interface utilisateur graphique (GUI) ouvre des perspectives prometteuses pour améliorer la productivité des workflows humains. Bien que la plupart des agents soient basés sur le langage, s’appuyant sur des API propriétaires riches en métadonnées textuelles (comme le HTML ou l’arbre d’accessibilité), ils présentent des limites dans la perception visuelle des interfaces comme le font les humains, soulignant ainsi la nécessité de développer des agents visuels dédiés aux GUI. Dans ce travail, nous proposons ShowUI, un modèle vision-langage-action conçu pour l’univers numérique, marqué par les innovations suivantes : (i) une sélection de tokens visuels guidée par l’interface (UI-Guided Visual Token Selection), qui réduit les coûts computationnels en modélisant les captures d’écran comme un graphe connecté d’interfaces, en identifiant de manière adaptative les relations redondantes entre ses composants, et en utilisant ces informations comme critère de sélection de tokens au sein des blocs d’attention auto-associative ; (ii) un flux intercalé vision-langage-action, qui permet de façon souple d’unifier diverses exigences dans les tâches GUI, en assurant une gestion efficace de l’historique visuel-actionnel lors de la navigation, ou en appariant de manière cohérente des séquences multi-tours de requêtes-actions à chaque capture d’écran, ce qui améliore l’efficacité d’entraînement ; (iii) la création de jeux de données d’instruction suivie pour GUI de petite taille mais de haute qualité, obtenus grâce à une curation rigoureuse des données et à une stratégie de rééchantillonnage visant à corriger des déséquilibres importants entre les types de données. Grâce à ces composants, ShowUI, un modèle léger de 2 milliards de paramètres utilisant 256 000 échantillons, atteint une précision remarquable de 75,1 % en tâche de repérage de captures d’écran en zero-shot. De plus, la sélection de tokens guidée par l’interface réduit de 33 % les tokens visuels redondants durant l’entraînement, tout en accélérant les performances de 1,4 fois. Des expériences de navigation sur les environnements web Mind2Web, mobile AITW et MiniWob en ligne confirment l’efficacité et le potentiel de notre modèle dans le développement d’agents visuels pour GUI. Les modèles sont disponibles à l’adresse suivante : https://github.com/showlab/ShowUI.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp