SEAgent : Agent d'utilisation informatique auto-évolutive avec apprentissage autonome à partir de l'expérience

La réaffectation des grands modèles vision-langage (LVLM) en agents d’utilisation informatique (CUA) a permis des progrès considérables, principalement grâce à des données étiquetées par des humains. Toutefois, ces modèles peinent souvent à s’adapter à des logiciels nouveaux ou spécialisés, notamment dans des scénarios dépourvus d’étiquetages humains. Pour relever ce défi, nous proposons SEAgent, un cadre agencé d’évolution autonome permettant aux CUAs d’évoluer de manière autonome grâce à leurs interactions avec des logiciels inconnus. Plus précisément, SEAgent permet aux agents d’utilisation informatique de maîtriser de manière autonome de nouveaux environnements logiciels par apprentissage expérientiel : les agents explorent de nouveaux logiciels, apprennent par itérations d’essais-erreurs, et résolvent progressivement des tâches générées automatiquement, organisées de la simple à la complexe. Pour atteindre cet objectif, nous concevons un Modèle d’État du Monde pour l’évaluation progressive des trajectoires, ainsi qu’un Générateur de Curriculum qui produit des tâches de plus en plus variées et exigeantes. La politique de l’agent est mise à jour grâce à un apprentissage expérientiel combinant une imitation adversaire des actions infructueuses et une optimisation de politique relative par groupe (GRPO) sur les actions réussies. En outre, nous introduisons une stratégie d’apprentissage spécialiste-généraliste qui intègre les connaissances expérientielles individuelles provenant d’agents spécialistes, favorisant ainsi le développement d’un CUA généraliste plus performant, capable d’évolution autonome continue. Cet agent unifié atteint finalement des performances supérieures à celles d’ensembles d’agents spécialistes individuels sur leurs logiciels spécialisés respectifs. Nous validons l’efficacité de SEAgent sur cinq nouveaux environnements logiciels au sein de OS-World. Notre approche réalise une amélioration significative de 23,2 % du taux de réussite, passant de 11,3 % à 34,5 %, par rapport à un CUA open-source compétitif, à savoir UI-TARS.