HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 7 heures

Recherche Profonde Multi-Agent : Entraînement de systèmes Multi-Agent avec M-GRPO

Recherche Profonde Multi-Agent : Entraînement de systèmes Multi-Agent avec M-GRPO

Résumé

Voici la traduction du texte en français, respectant le style académique et la terminologie technique appropriée :Les systèmes multi-agents affichent de bonnes performances sur les tâches de raisonnement général. Toutefois, l'absence d'entraînement dans des domaines spécialisés entrave leur précision. Les méthodes actuelles entraînent un grand modèle de langage (LLM) unifié pour tous les agents du système. Cela peut limiter les performances en raison des distributions sous-jacentes différentes propres à chaque agent. Par conséquent, l'entraînement de systèmes multi-agents avec des LLM distincts constitue la prochaine étape à franchir. Cependant, cette approche introduit des défis d'optimisation. Par exemple, les agents fonctionnent à des fréquences différentes, les déploiements (rollouts) impliquent des invocations variables de sous-agents, et les agents sont souvent déployés sur des serveurs distincts, ce qui perturbe le flux de gradient de bout en bout.Pour remédier à ces problèmes, nous proposons M-GRPO, une extension hiérarchique de la méthode « Group Relative Policy Optimization » (Optimisation de politique relative au groupe) conçue pour les systèmes multi-agents verticaux comprenant un agent principal (planificateur) et plusieurs sous-agents (exécuteurs d'outils à tours multiples). M-GRPO calcule les avantages relatifs au groupe tant pour l'agent principal que pour les sous-agents, maintenant ainsi une attribution de crédit (credit assignment) hiérarchique. Il introduit également un schéma d'alignement de trajectoire qui génère des lots (batches) de taille fixe malgré la variabilité des invocations des sous-agents.Nous déployons un pipeline d'entraînement découplé dans lequel les agents s'exécutent sur des serveurs séparés et échangent un minimum de statistiques via un stockage partagé. Cela permet un entraînement évolutif (scalable) sans rétropropagation (backpropagation) inter-serveurs. Lors d'expériences sur des benchmarks du monde réel (par exemple, GAIA, XBench-DeepSearch et WebWalkerQA), M-GRPO surpasse systématiquement le GRPO mono-agent ainsi que le GRPO multi-agents avec sous-agents figés, démontrant une stabilité et une efficacité d'échantillonnage (sample efficiency) accrues. Ces résultats montrent que l'alignement de trajectoires hétérogènes et le découplage de l'optimisation entre des agents spécialisés améliorent les tâches de raisonnement augmentées par des outils.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Recherche Profonde Multi-Agent : Entraînement de systèmes Multi-Agent avec M-GRPO | Articles de recherche | HyperAI