ShowUI : Un Modèle Vision-langage-action Axé Sur L'automatisation De L'interface Utilisateur Graphique


Introduction au tutoriel
ShowUI est un modèle vision-langage-action développé conjointement par le Show Lab de l'Université nationale de Singapour et Microsoft en 2024. Il est conçu pour les assistants intelligents d'interface utilisateur graphique (GUI) et vise à améliorer l'efficacité du travail humain. Les résultats pertinents de l'article sont «ShowUI : un modèle vision-langage-action pour agent visuel d'interface utilisateur graphiqueCe modèle prend en charge les scénarios d'applications Web et mobiles en comprenant le contenu de l'interface utilisateur et en effectuant des actions interactives telles que cliquer, saisir et faire défiler. Il peut automatiser des tâches d'interface utilisateur complexes. ShowUI peut analyser les captures d'écran et les commandes utilisateur pour prédire les actions interactives sur l'interface.
该教程是 ShowUI 的一个演示 demo,算力资源采用 RTX 4090 。只需提供图片和任务指令,无论是在手机电脑上的截图还是其他类型的图片,ShowUI 都可以指出操作位置。
Affichage des effets

Méthode d'exécution (il faut environ 15 secondes pour initialiser après le démarrage du conteneur, puis effectuer les opérations suivantes)
1. Après avoir cloné et démarré le conteneur, passez votre souris sur l'adresse de l'API et cliquez sur la flèche qui apparaît. Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Veuillez patienter environ 30 secondes et réessayer.

Un exemple d’interface ouverte avec succès est présenté ci-dessous :

2. Après avoir accédé à la page de démonstration, téléchargez l'image et entrez la commande dans la zone de saisie, puis cliquez sur « Soumettre ». Le point rouge sur l'image générée marque la zone d'opération et les coordonnées de position du point rouge seront affichées en dessous.

Discussion et échange
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutorial Exchange] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓
