HyperAIHyperAI
il y a 2 mois

Aguvis : Agents Unifiés de Vision Pure pour l'Interaction Autonome avec les Interfaces Graphiques Utilisateur

Xu, Yiheng ; Wang, Zekun ; Wang, Junli ; Lu, Dunjie ; Xie, Tianbao ; Saha, Amrita ; Sahoo, Doyen ; Yu, Tao ; Xiong, Caiming
Aguvis : Agents Unifiés de Vision Pure pour l'Interaction Autonome avec les Interfaces Graphiques Utilisateur
Résumé

L'automatisation des tâches d'interface utilisateur graphique (GUI) reste un défi en raison de la dépendance aux représentations textuelles, des espaces d'action spécifiques à chaque plateforme et des capacités limitées de raisonnement. Nous présentons Aguvis, un cadre unifié basé sur la vision pour les agents autonomes GUI qui opère directement sur les images d'écran, standardise les interactions cross-plateformes et intègre le raisonnement structuré par le biais du monologue interne. Pour permettre cela, nous avons construit la collection de données Aguvis, une base de données à grande échelle dotée d'annotations de contextualisation et de raisonnement multimodales, et développé une pipeline d'entraînement en deux étapes qui sépare la contextualisation GUI de la planification et du raisonnement. Les expériences montrent que Aguvis atteint des performances de pointe dans les benchmarks hors ligne et en ligne dans le monde réel, marquant ainsi le premier agent GUI entièrement autonome basé sur la vision qui fonctionne sans modèles propriétaires. Nous mettons à disposition toutes les bases de données, modèles et recettes d'entraînement sous licence open source à l'adresse https://aguvis-project.github.io afin d'avancer la recherche future.

Aguvis : Agents Unifiés de Vision Pure pour l'Interaction Autonome avec les Interfaces Graphiques Utilisateur | Articles de recherche récents | HyperAI