il y a 6 mois

Jiabo Ye Xi Zhang Haiyang Xu Haowei Liu Junyang Wang Zhaoqing Zhu Ziwei Zheng Feiyu Gao Junjie Cao Zhengxi Lu

Résumé

Cet article présente GUI-Owl, un modèle fondamental d’agent GUI qui atteint des performances de pointe parmi les modèles open source end-to-end sur dix benchmarks GUI couvrant les environnements desktop et mobile, incluant le repérage (grounding), la réponse à des questions, la planification, la prise de décision et les connaissances procédurales. GUI-Owl-7B atteint un score de 66,4 sur AndroidWorld et de 29,4 sur OSWorld. En s’appuyant sur cette base, nous proposons Mobile-Agent-v3, un cadre général d’agent GUI qui améliore davantage les performances, atteignant 73,3 sur AndroidWorld et 37,7 sur OSWorld, établissant ainsi un nouveau record pour les cadres open source d’agents GUI. GUI-Owl intègre trois innovations clés : (1) Infrastructure d’environnement à grande échelle : un environnement virtuel basé sur le cloud couvrant Android, Ubuntu, macOS et Windows, permettant notre cadre de production itérative de trajectoires GUI auto-évoluantes. Celui-ci génère des données d’interaction de haute qualité grâce à une génération automatisée de requêtes et une validation de correction, en exploitant GUI-Owl pour affiner itérativement les trajectoires, créant ainsi une boucle d’amélioration continue. Ce système supporte diverses chaînes de traitement de données et réduit fortement les annotations manuelles. (2) Capacités fondamentales d’agents diversifiées : en intégrant le repérage d’interface, la planification, les sémantiques d’actions et les schémas de raisonnement, GUI-Owl permet une prise de décision end-to-end et peut servir de composant modulaire dans des systèmes multi-agents. (3) Apprentissage par renforcement à environnement évolutif : nous avons développé un cadre d’apprentissage par renforcement évolutif, basé sur une formation entièrement asynchrone, afin d’assurer une meilleure alignement avec le monde réel. Nous introduisons également une méthode d’optimisation de politique relative consciente des trajectoires (TRPO), adaptée à l’apprentissage en ligne, qui atteint un score de 34,9 sur OSWorld. GUI-Owl et Mobile-Agent-v3 sont rendus open source à l’adresse suivante : https://github.com/X-PLUG/MobileAgent.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Jiabo Ye Xi Zhang Haiyang Xu Haowei Liu Junyang Wang Zhaoqing Zhu Ziwei Zheng Feiyu Gao Junjie Cao Zhengxi Lu

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Jiabo Ye Xi Zhang Haiyang Xu Haowei Liu Junyang Wang Zhaoqing Zhu Ziwei Zheng Feiyu Gao Junjie Cao Zhengxi Lu

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Mobile-Agent-v3 : Agents fondamentaux pour l'automatisation des interfaces graphiques

Jiabo Ye Xi Zhang Haiyang Xu Haowei Liu Junyang Wang Zhaoqing Zhu Ziwei Zheng Feiyu Gao Junjie Cao Zhengxi Lu5 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Mobile-Agent-v3 : Agents fondamentaux pour l'automatisation des interfaces graphiques

Jiabo Ye Xi Zhang Haiyang Xu Haowei Liu Junyang Wang Zhaoqing Zhu Ziwei Zheng Feiyu Gao Junjie Cao Zhengxi Lu5 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Mobile-Agent-v3 : Agents fondamentaux pour l'automatisation des interfaces graphiques

Jiabo Ye Xi Zhang Haiyang Xu Haowei Liu Junyang Wang Zhaoqing Zhu Ziwei Zheng Feiyu Gao Junjie Cao Zhengxi Lu5 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Jiabo Ye Xi Zhang Haiyang Xu Haowei Liu Junyang Wang Zhaoqing Zhu Ziwei Zheng Feiyu Gao Junjie Cao Zhengxi Lu

Jiabo Ye Xi Zhang Haiyang Xu Haowei Liu Junyang Wang Zhaoqing Zhu Ziwei Zheng Feiyu Gao Junjie Cao Zhengxi Lu

Jiabo Ye Xi Zhang Haiyang Xu Haowei Liu Junyang Wang Zhaoqing Zhu Ziwei Zheng Feiyu Gao Junjie Cao Zhengxi Lu