HyperAIHyperAI
il y a 2 jours

Mobile-Agent-v3 : Agents fondamentaux pour l'automatisation des interfaces graphiques

Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan
Mobile-Agent-v3 : Agents fondamentaux pour l'automatisation des interfaces graphiques
Résumé

Cet article présente GUI-Owl, un modèle fondamental d’agent GUI qui atteint des performances de pointe parmi les modèles open source end-to-end sur dix benchmarks GUI couvrant les environnements desktop et mobile, incluant le repérage (grounding), la réponse à des questions, la planification, la prise de décision et les connaissances procédurales. GUI-Owl-7B atteint un score de 66,4 sur AndroidWorld et de 29,4 sur OSWorld. En s’appuyant sur cette base, nous proposons Mobile-Agent-v3, un cadre général d’agent GUI qui améliore davantage les performances, atteignant 73,3 sur AndroidWorld et 37,7 sur OSWorld, établissant ainsi un nouveau record pour les cadres open source d’agents GUI. GUI-Owl intègre trois innovations clés : (1) Infrastructure d’environnement à grande échelle : un environnement virtuel basé sur le cloud couvrant Android, Ubuntu, macOS et Windows, permettant notre cadre de production itérative de trajectoires GUI auto-évoluantes. Celui-ci génère des données d’interaction de haute qualité grâce à une génération automatisée de requêtes et une validation de correction, en exploitant GUI-Owl pour affiner itérativement les trajectoires, créant ainsi une boucle d’amélioration continue. Ce système supporte diverses chaînes de traitement de données et réduit fortement les annotations manuelles. (2) Capacités fondamentales d’agents diversifiées : en intégrant le repérage d’interface, la planification, les sémantiques d’actions et les schémas de raisonnement, GUI-Owl permet une prise de décision end-to-end et peut servir de composant modulaire dans des systèmes multi-agents. (3) Apprentissage par renforcement à environnement évolutif : nous avons développé un cadre d’apprentissage par renforcement évolutif, basé sur une formation entièrement asynchrone, afin d’assurer une meilleure alignement avec le monde réel. Nous introduisons également une méthode d’optimisation de politique relative consciente des trajectoires (TRPO), adaptée à l’apprentissage en ligne, qui atteint un score de 34,9 sur OSWorld. GUI-Owl et Mobile-Agent-v3 sont rendus open source à l’adresse suivante : https://github.com/X-PLUG/MobileAgent.