Chaîne d'agents : Modèles fondamentaux d'agents bout-en-bout par distillation multi-agents et apprentissage par renforcement agissant

Les progrès récents des grands modèles linguistiques (LLM) et des systèmes multi-agents ont démontré des capacités remarquables dans des tâches de résolution de problèmes complexes, telles que la recherche approfondie, le codage intuitif (vibe coding) et le raisonnement mathématique. Toutefois, la plupart des systèmes multi-agents existants reposent sur une ingénierie manuelle des prompts ou des flux de travail, associée à des cadres d’agents sophistiqués, ce qui les rend peu efficaces sur le plan computationnel, moins performants, et empêche leur bénéfice d’un apprentissage centré sur les données. Dans ce travail, nous introduisons Chain-of-Agents (CoA), un nouveau paradigme de raisonnement basé sur les LLM, permettant une résolution de problèmes complexes native et end-to-end, de la même manière qu’un système multi-agents (c’est-à-dire une résolution itérative avec plusieurs outils et plusieurs agents) au sein d’un seul modèle. Dans la résolution de problèmes par chaîne d’agents, le modèle active dynamiquement différents agents outils et agents incarnant des rôles pour simuler de manière end-to-end une collaboration multi-agents. Pour susciter chez les LLM des capacités de résolution end-to-end selon la chaîne d’agents, nous proposons un cadre de distillation multi-agents permettant de transformer des systèmes multi-agents de pointe en trajectoires de chaîne d’agents, destinées à une fine-tuning supervisée agente. Nous utilisons ensuite un apprentissage par renforcement agente sur des tâches vérifiables afin d’améliorer davantage les capacités des modèles en résolution de problèmes par chaîne d’agents. Les modèles résultants sont appelés Modèles fondamentaux agents (Agent Foundation Models, AFMs). Nos études empiriques montrent que les AFMs établissent de nouveaux états de l’art sur divers benchmarks, tant dans les scénarios d’agents web que d’agents code. Nous mettons entièrement à disposition, sous licence open source, l’ensemble de la recherche — y compris les poids du modèle, le code d’entraînement et d’évaluation, ainsi que les données d’entraînement — offrant ainsi un solide point de départ pour les recherches futures sur les modèles d’agents et l’apprentissage par renforcement agente.