HyperAI

Une équipe de recherche menée par Yang Wei, doctorant à l’Université du Sud de la Californie, a présenté un cadre novateur de négociation méta-stratégique, visant à améliorer fondamentalement l’autonomie et l’adaptabilité des systèmes multi-agents basés sur les grands modèles linguistiques (LLM). Ce travail s’inscrit dans une tendance croissante vers l’essor des systèmes multi-agents, capables de simuler une « intelligence collective » en permettant à plusieurs agents d’interagir, de raisonner en parallèle et de collaborer pour résoudre des tâches complexes, dépassant ainsi les limites des modèles uniques. Jusqu’à présent, les recherches sur les systèmes multi-agents LLM se sont principalement articulées autour de trois voies parallèles : l’amélioration du consensus, par des approches comme le Self-Consistency, les Tree/Graph-of-Thoughts ou les débats itératifs ; l’intégration d’outils et de connaissances externes, via des mécanismes de recherche, d’exécution de code ou d’API ; et l’évolution des paradigmes d’apprentissage, passant des protocoles fixes par prompt à l’apprentissage par imitation (SFT) puis à l’optimisation par renforcement (RL), notamment via PPO, GRPO ou DPO, sous contrainte de KL. Malgré ces progrès, plusieurs défis persistent. Les systèmes actuels manquent souvent d’autonomie stratégique : ils s’appuient sur des protocoles prédéfinis, ce qui entraîne des comportements inappropriés tels que des échanges inutiles (talkativeness), une convergence prématurée (early lock-in) ou des oscillations entre décisions. De plus, l’augmentation du nombre d’agents ou de tours d’interaction entraîne une croissance exponentielle des coûts en tokens, tandis que l’apprentissage par renforcement reste sensible aux variations de récompense, aux distributions longues en queue et aux données hétérogènes, limitant sa stabilité et sa transférabilité. Face à ces limites, l’équipe s’est posé une question fondamentale : comment transformer les agents d’acteurs passifs, exécutant des règles fixes, en décideurs autonomes capables de négocier leur stratégie de collaboration ? Pour y répondre, elle a conçu un nouveau cadre, le MPDF (Meta-Policy Deliberation Framework), qui permet à chaque agent d’apprendre une méta-stratégie autonome. Cette méta-stratégie lui permet, en fonction de son incertitude et des signaux de ses pairs, de choisir dynamiquement entre trois actions de haut niveau : persister (maintenir sa position), optimiser (affiner sa proposition) ou se retirer (conceder, en cas de faible contribution). Ce changement de paradigme permet une collaboration non plus imposée, mais intelligemment adaptative. Pour assurer la stabilité de l’apprentissage, l’équipe a développé un algorithme d’optimisation robuste, SoftRankPO, qui transforme les récompenses en scores de quantiles normaux, atténuant ainsi les effets des variations d’échelle et des bruits extrêmes. Cette approche, combinée à une mise à jour dans un domaine de confiance KL, rend l’entraînement plus stable, même avec des données hétérogènes ou en mode hors-ligne. Enfin, pour améliorer la transparence, l’équipe a introduit une mécanique d’attribution de crédit différentielle, qui décompose la performance du groupe en deux composantes : l’amélioration personnelle de chaque agent et sa contribution marginale au consensus final. Cette distinction permet non seulement de comprendre qui a fait la différence, mais aussi de guider l’optimisation et l’audit de sécurité. Les expérimentations montrent que ce cadre permet une convergence stratégique : les agents apprennent à rester silencieux quand leur confiance est élevée, évitant ainsi les discussions inutiles. Plus surprenant, même les agents minoritaires, si leurs raisonnements sont logiquement cohérents, peuvent influencer la dynamique globale en choisissant de « persister », forçant les autres à « réviser » leurs hypothèses — une forme de sagesse collective fondée sur la qualité, pas sur la majorité. Les applications potentielles sont nombreuses : éviter la « cécité collective » en diagnostic médical, réduire les pertes de ressources dans les projets complexes comme la conception de médicaments, ou permettre aux robots collaboratifs de prendre des décisions rapides et sûres face à des conflits sensoriels dans des environnements réels. Au fil du processus de recherche, l’équipe a traversé des phases critiques, notamment une phase de convergence instable lors de l’apprentissage par renforcement. Après des mois de tests et d’analyses poussées, la combinaison de SoftRankPO et de l’attribution de crédit différentielle a permis de stabiliser les courbes d’apprentissage, marquant une avancée décisive. À l’avenir, l’équipe envisage d’étendre ce cadre à des modèles plus puissants et à des scénarios ouverts, tout en explorant la collaboration homme-machine, une étape cruciale pour l’intégration réelle des systèmes multi-agents dans la société. Yang Wei, diplômé de l’Université de technologie de Huazhong, puis titulaire d’un master au Institut de l’automatisation de l’Académie chinoise des sciences, poursuit aujourd’hui ses recherches à l’Université du Sud de la Californie, où il se consacre à la création de systèmes multi-agents autonomes et intelligents, dotés d’une véritable capacité à coopérer et à décider.

Liens associés

Liens associés

Liens associés

Une Nouvelle Méthode De Prédiction De La Durée De Vie De La Batterie, Proposée Par l'Université Du Michigan Et d'autres, a Raccourci Le Cycle De Vérification De 40 Fois, Économisant Ainsi Du Temps d'évaluation Du 98% Grâce À « l'apprentissage Par Découverte ».

Une Nouvelle Méthode De Prédiction De La Durée De Vie De La Batterie, Proposée Par l'Université Du Michigan Et d'autres, a Raccourci Le Cycle De Vérification De 40 Fois, Économisant Ainsi Du Temps d'évaluation Du 98% Grâce À « l'apprentissage Par Découverte ».

Command Palette

Intelligence collective réinventée : une nouvelle architecture permet aux agents intelligents de négocier leur collaboration de manière autonome

Liens associés

Command Palette

Intelligence collective réinventée : une nouvelle architecture permet aux agents intelligents de négocier leur collaboration de manière autonome

Liens associés

Command Palette

Intelligence collective réinventée : une nouvelle architecture permet aux agents intelligents de négocier leur collaboration de manière autonome

Liens associés

Une Nouvelle Méthode De Prédiction De La Durée De Vie De La Batterie, Proposée Par l'Université Du Michigan Et d'autres, a Raccourci Le Cycle De Vérification De 40 Fois, Économisant Ainsi Du Temps d'évaluation Du 98% Grâce À « l'apprentissage Par Découverte ».

Une Nouvelle Méthode De Prédiction De La Durée De Vie De La Batterie, Proposée Par l'Université Du Michigan Et d'autres, a Raccourci Le Cycle De Vérification De 40 Fois, Économisant Ainsi Du Temps d'évaluation Du 98% Grâce À « l'apprentissage Par Découverte ».