HyperAIHyperAI

Command Palette

Search for a command to run...

Mobile-Agent-v3 : Agents fondamentaux pour l'automatisation des interfaces graphiques

Résumé

Cet article présente GUI-Owl, un modèle fondamental d’agent GUI qui atteint des performances de pointe parmi les modèles open source end-to-end sur dix benchmarks GUI couvrant les environnements desktop et mobile, incluant le repérage (grounding), la réponse à des questions, la planification, la prise de décision et les connaissances procédurales. GUI-Owl-7B atteint un score de 66,4 sur AndroidWorld et de 29,4 sur OSWorld. En s’appuyant sur cette base, nous proposons Mobile-Agent-v3, un cadre général d’agent GUI qui améliore davantage les performances, atteignant 73,3 sur AndroidWorld et 37,7 sur OSWorld, établissant ainsi un nouveau record pour les cadres open source d’agents GUI. GUI-Owl intègre trois innovations clés : (1) Infrastructure d’environnement à grande échelle : un environnement virtuel basé sur le cloud couvrant Android, Ubuntu, macOS et Windows, permettant notre cadre de production itérative de trajectoires GUI auto-évoluantes. Celui-ci génère des données d’interaction de haute qualité grâce à une génération automatisée de requêtes et une validation de correction, en exploitant GUI-Owl pour affiner itérativement les trajectoires, créant ainsi une boucle d’amélioration continue. Ce système supporte diverses chaînes de traitement de données et réduit fortement les annotations manuelles. (2) Capacités fondamentales d’agents diversifiées : en intégrant le repérage d’interface, la planification, les sémantiques d’actions et les schémas de raisonnement, GUI-Owl permet une prise de décision end-to-end et peut servir de composant modulaire dans des systèmes multi-agents. (3) Apprentissage par renforcement à environnement évolutif : nous avons développé un cadre d’apprentissage par renforcement évolutif, basé sur une formation entièrement asynchrone, afin d’assurer une meilleure alignement avec le monde réel. Nous introduisons également une méthode d’optimisation de politique relative consciente des trajectoires (TRPO), adaptée à l’apprentissage en ligne, qui atteint un score de 34,9 sur OSWorld. GUI-Owl et Mobile-Agent-v3 sont rendus open source à l’adresse suivante : https://github.com/X-PLUG/MobileAgent.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp