il y a 2 mois

ShowUI : Un modèle vision-langage-action pour agent visuel GUI

Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

Voir les détails de l'article View Code

ShowUI : Un modèle vision-langage-action pour agent visuel GUI

Résumé

La création d'assistants à interface graphique (GUI) présente un potentiel considérable pour améliorer la productivité des workflows humains. Bien que la plupart des agents soient basés sur le langage, en s'appuyant sur des API à source fermée riches en métadonnées textuelles (par exemple, HTML ou arbre d'accessibilité), ils montrent des limites dans leur perception visuelle de l'interface utilisateur, soulignant ainsi le besoin d'agents visuels GUI. Dans cette étude, nous développons un modèle vision-langage-action dans le monde numérique, nommé ShowUI, qui présente les innovations suivantes : (i) Sélection de jetons visuels guidée par l'UI pour réduire les coûts de calcul en formulant les captures d'écran comme un graphe connecté par l'UI, en identifiant de manière adaptative leurs relations redondantes et en servant de critère pour la sélection des jetons lors des blocs d'auto-attention ; (ii) Flux vision-langage-action entrelacés qui unifient de manière flexible divers besoins au sein des tâches GUI, permettant une gestion efficace de l'historique visuel-action lors de la navigation ou en associant plusieurs séquences requête-action à chaque capture d'écran pour améliorer l'efficacité de l'entraînement ; (iii) Jeux de données d'instructions GUI à petite échelle mais de haute qualité grâce à une curration attentive des données et à l'utilisation d'une stratégie de re-échantillonnage pour traiter les déséquilibres importants entre les types de données. Avec ces composants, ShowUI, un modèle léger de 2 milliards de paramètres utilisant 256K données, atteint une précision robuste de 75,1 % en classification zéro-shot des captures d'écran. Sa sélection guidée par l'UI réduit également de 33 % les jetons visuels redondants pendant l'entraînement et accélère les performances par 1,4 fois. Les expériences de navigation menées dans différents environnements tels que Mind2Web web, AITW mobile et MiniWob en ligne mettent encore plus en évidence l'efficacité et le potentiel de notre modèle pour faire progresser les agents visuels GUI. Les modèles sont disponibles sur https://github.com/showlab/ShowUI.