il y a 2 mois

CODA : Coordonner le cerveau et le cervelet pour un agent informatique à cerveau dual utilisant un apprentissage par renforcement découplé

Zeyi Sun Yuhang Cao Jianze Liang Qiushi Sun Ziyu Liu Zhixiong Zhang et al

Résumé

Les agents autonomes destinés aux interfaces graphiques (GUI) font face à des défis importants dans des domaines spécialisés tels que le calcul scientifique, où une planification à long terme et une exécution précise sont nécessaires. Les approches existantes souffrent d’un compromis : les agents généralistes se distinguent par leur capacité de planification, mais se révèlent peu performants en exécution, tandis que les agents spécialisés présentent l’inverse, à savoir une bonne exécution mais une faible capacité de planification. Des cadres compositionnels récents tentent de combler cet écart en combinant un planificateur et un exécuteur, mais ils sont généralement statiques et non entraînables, ce qui empêche toute adaptation à partir de l’expérience. Ce point constitue une limitation critique, compte tenu de la rareté des données de haute qualité dans les domaines scientifiques. Pour surmonter ces limites, nous proposons CODA, un nouveau cadre compositionnel entraînable qui intègre un planificateur généraliste (Cerebrum) et un exécuteur spécialisé (Cerebellum), entraîné via une pipeline en deux étapes dédiée. Dans la première étape, la Spécialisation, nous appliquons une méthode GRPO déconnectée pour entraîner un planificateur expert pour chaque application scientifique de manière indépendante, en partant d’un petit ensemble de trajectoires de tâches. Dans la deuxième étape, la Généralisation, nous agrégons toutes les trajectoires réussies provenant des experts spécialisés afin de constituer un jeu de données consolidé, utilisé ensuite pour un ajustement supervisé du planificateur final. Ce processus confère à CODA une exécution robuste ainsi qu’une capacité de généralisation transversale aux domaines. Évaluée sur quatre applications exigeantes issues du benchmark ScienceBoard, CODA surpasse significativement les modèles de référence et établit un nouveau record d’état de l’art parmi les modèles open-source.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

CODA : Coordonner le cerveau et le cervelet pour un agent informatique à cerveau dual utilisant un apprentissage par renforcement découplé

Zeyi Sun Yuhang Cao Jianze Liang Qiushi Sun Ziyu Liu Zhixiong Zhang et al

Résumé

Construire l'IA avec l'IA

Hyper Newsletters