AutoGLM : Agents fondamentaux autonomes pour les interfaces graphiques utilisateur
AutoGLM : Agents fondamentaux autonomes pour les interfaces graphiques utilisateur

Résumé
Nous présentons AutoGLM, une nouvelle série de la famille ChatGLM, conçue pour servir de base à des agents autonomes chargés de contrôler des dispositifs numériques via des interfaces graphiques utilisateurs (GUI). Bien que les modèles fondamentaux excellent dans l'acquisition des connaissances humaines, ils peinent souvent à prendre des décisions dans des environnements réels dynamiques, ce qui limite leur progression vers une intelligence artificielle générale. Cette limitation souligne l'importance du développement d'agents fondamentaux capables d'apprendre par interaction autonome avec leur environnement, en renforçant ainsi les modèles existants. En nous concentrant sur le navigateur web et le téléphone mobile comme scénarios représentatifs d'interfaces graphiques, nous avons conçu AutoGLM comme un système d'agents fondamentaux pratique pour des interactions réelles avec des GUI. Notre approche intègre une suite complète de techniques et d'infrastructures afin de concevoir des systèmes d'agents déployables, adaptés à une utilisation par les utilisateurs. Grâce à ce développement, nous avons tiré deux enseignements clés : premièrement, la conception d'une « interface intermédiaire » appropriée pour le contrôle des GUI est essentielle, car elle permet de séparer les comportements de planification et de mise en œuvre (grounding), qui nécessitent une optimisation distincte en termes de flexibilité et d'exactitude respectivement ; deuxièmement, nous avons mis au point un nouveau cadre d'entraînement progressif permettant un apprentissage par renforcement en ligne évolutif pour AutoGLM. Nos évaluations démontrent l'efficacité d'AutoGLM dans plusieurs domaines : pour la navigation web, AutoGLM atteint un taux de réussite de 55,2 % sur VAB-WebArena-Lite (montant à 59,1 % lors d'une deuxième tentative) et 96,2 % sur les tâches d'évaluation OpenTable ; pour le contrôle des appareils Android, AutoGLM obtient un taux de réussite de 36,2 % sur AndroidLab (VAB-Mobile) et 89,7 % sur des tâches courantes dans des applications chinoises populaires.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.