HyperAIHyperAI

Command Palette

Search for a command to run...

Aguvis : Agents Unifiés de Vision Pure pour l'Interaction Autonome avec les Interfaces Graphiques Utilisateur

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

Résumé

L'automatisation des tâches d'interface utilisateur graphique (GUI) reste un défi en raison de la dépendance aux représentations textuelles, des espaces d'action spécifiques à chaque plateforme et des capacités limitées de raisonnement. Nous présentons Aguvis, un cadre unifié basé sur la vision pour les agents autonomes GUI qui opère directement sur les images d'écran, standardise les interactions cross-plateformes et intègre le raisonnement structuré par le biais du monologue interne. Pour permettre cela, nous avons construit la collection de données Aguvis, une base de données à grande échelle dotée d'annotations de contextualisation et de raisonnement multimodales, et développé une pipeline d'entraînement en deux étapes qui sépare la contextualisation GUI de la planification et du raisonnement. Les expériences montrent que Aguvis atteint des performances de pointe dans les benchmarks hors ligne et en ligne dans le monde réel, marquant ainsi le premier agent GUI entièrement autonome basé sur la vision qui fonctionne sans modèles propriétaires. Nous mettons à disposition toutes les bases de données, modèles et recettes d'entraînement sous licence open source à l'adresse https://aguvis-project.github.io afin d'avancer la recherche future.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp