HyperAIHyperAI

Command Palette

Search for a command to run...

ShowUI : Un Modèle vision-langage-action Axé Sur l'automatisation De l'interface Utilisateur Graphique

Date

il y a un an

Taille

486.51 MB

Licence

Apache 2.0

URL du document

2411.17465

1. Introduction au tutoriel

ShowUI, un modèle visuel-langage-action développé conjointement par le Show Lab de l'Université nationale de Singapour et Microsoft en 2024, est conçu pour les assistants intelligents d'interface utilisateur graphique (GUI) afin d'améliorer l'efficacité du travail humain. Ce modèle comprend le contenu de l'interface à l'écran et effectue des actions interactives telles que cliquer, saisir du texte et faire défiler. Compatible avec les applications web et mobiles, il peut automatiser des tâches complexes d'interface utilisateur. ShowUI est capable d'analyser les captures d'écran et les commandes utilisateur pour prédire les actions interactives sur l'interface. Des articles de recherche associés sont disponibles. ShowUI : un modèle vision-langage-action pour agent visuel d'interface utilisateur graphique Il a été inclus dans CVPR 2025.

Ce tutoriel utilise une seule carte graphique RTX 5090 comme ressource par défaut, mais une seule carte graphique RTX 4090 peut être utilisée au minimum pour démarrer le programme.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Informations sur la citation

@misc{lin2024showui,
      title={ShowUI: One Vision-Language-Action Model for GUI Visual Agent}, 
      author={Kevin Qinghong Lin and Linjie Li and Difei Gao and Zhengyuan Yang and Shiwei Wu and Zechen Bai and Weixian Lei and Lijuan Wang and Mike Zheng Shou},
      year={2024},
      eprint={2411.17465},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2411.17465}, 
}

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp